如何按多列分组逻辑对DataFrame进行有序排列（而非聚合）

发表时间：2025-12-31 00:00:00

文章作者：心靈之曲

浏览次数：

本文介绍如何在不改变原始数据行结构的前提下，按指定列（如deal、commodity、startdate）对pandas dataframe进行逻辑分组式排序，使同类记录相邻排列，便于后续分析或展示。

在实际数据分析中，我们常需将具有相同业务属性（如交易方向、标的、起始日）的记录“聚拢”显示，但并非执行聚合计算（如sum/mean），而是保持每行原始数据完整，仅调整其物理顺序——这本质上是按多列排序（sort_values），而非分组聚合（groupby）。用户误用 df.groupby(...) 是常见误区：groupby 返回的是分组对象（GroupBy），用于聚合或变换，无法直接返回重排后的DataFrame；若强行调用 .apply() 或 .agg() 反而会破坏原始行结构或引入索引混乱。

正确做法是使用 pandas.DataFrame.sort_values()，按目标分组字段升序或降序排列，即可实现视觉与逻辑上的“分组效果”。例如，按 'Deal'（先Buy后Sell）、'Commodity'（确保同标的紧邻）、'startdate'（统一日期优先）三列排序：

# 按 Deal（升序：'Buy' < 'Sell'）、Commodity、startdate 排序
df_sorted = df.sort_values(['Deal', 'Commodity', 'startdate']).reset_index(drop=True)

若需严格匹配示例输出中 Buy 记录在前（J3→J4）、Sell 在后（J1→J2）的顺序，且所有 startdate 相同，则可补充次要排序键（如 quantity 降序）增强确定性：

# 更稳健的排序：Deal 升序 + quantity 降序（同Deal内大数量优先）
df_sorted = df.sort_values(
    ['Deal', 'Commodity', 'startdate', 'quantity'], 
    ascending=[True, True, True, False]
).reset_index(drop=True)

⚠️ 注意事项：

sort_values 默认稳定排序（stable sort），相同键值的行相对顺序不变，可保留原始ID顺序（如J1在J2前）；
若列名含空格或特殊字符（如StartDate vs startdate），请严格核对列名大小写与拼写；
时间字符串（如'01Jan23'）建议转换为 datetime 类型再排序，避免字典序错误（例如'01Feb23'

总结：所谓“保留分组”，本质是按分组键排序。掌握 sort_values 的多级排序能力，配合 reset_index() 清理索引，即可高效生成符合业务阅读习惯的有序DataFrame，无需复杂groupby操作。

如何按多列分组逻辑对DataFrame进行有序排列（而非聚合）

相关案例查看更多

摄影科技传媒网站模板

建筑工程地产公司网站模板

创意设计广告印刷类网站模板

厨卫五金材料企业网站模板

烘干机机械通用网站模板

电子元件器械网站模板

医疗器械企业网站模板

响应式工商联合会协会网站模板