400 8949 560

NEWS/新闻

分享你我感悟

您当前位置> 主页 > 新闻 > 技术开发

如何按多列分组逻辑对DataFrame进行有序排列(而非聚合)

发表时间:2025-12-31 00:00:00

文章作者:心靈之曲

浏览次数:

本文介绍如何在不改变原始数据行结构的前提下,按指定列(如deal、commodity、startdate)对pandas dataframe进行逻辑分组式排序,使同类记录相邻排列,便于后续分析或展示。

在实际数据分析中,我们常需将具有相同业务属性(如交易方向、标的、起始日)的记录“聚拢”显示,但并非执行聚合计算(如sum/mean),而是保持每行原始数据完整,仅调整其物理顺序——这本质上是按多列排序(sort_values),而非分组聚合(groupby)。用户误用 df.groupby(...) 是常见误区:groupby 返回的是分组对象(GroupBy),用于聚合或变换,无法直接返回重排后的DataFrame;若强行调用 .apply() 或 .agg() 反而会破坏原始行结构或引入索引混乱。

正确做法是使用 pandas.DataFrame.sort_values(),按目标分组字段升序或降序排列,即可实现视觉与逻辑上的“分组效果”。例如,按 'Deal'(先Buy后Sell)、'Commodity'(确保同标的紧邻)、'startdate'(统一日期优先)三列排序:

# 按 Deal(升序:'Buy' < 'Sell')、Commodity、startdate 排序
df_sorted = df.sort_values(['Deal', 'Commodity', 'startdate']).reset_index(drop=True)

若需严格匹配示例输出中 Buy 记录在前(J3→J4)、Sell 在后(J1→J2)的顺序,且所有 startdate 相同,则可补充次要排序键(如 quantity 降序)增强确定性:

# 更稳健的排序:Deal 升序 + quantity 降序(同Deal内大数量优先)
df_sorted = df.sort_values(
    ['Deal', 'Commodity', 'startdate', 'quantity'], 
    ascending=[True, True, True, False]
).reset_index(drop=True)

⚠️ 注意事项:

  • sort_values 默认稳定排序(stable sort),相同键值的行相对顺序不变,可保留原始ID顺序(如J1在J2前);
  • 若列名含空格或特殊字符(如StartDate vs startdate),请严格核对列名大小写与拼写;
  • 时间字符串(如'01Jan23')建议转换为 datetime 类型再排序,避免字典序错误(例如'01Feb23'

总结:所谓“保留分组”,本质是按分组键排序。掌握 sort_values 的多级排序能力,配合 reset_index() 清理索引,即可高效生成符合业务阅读习惯的有序DataFrame,无需复杂groupby操作。

相关案例查看更多