社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

【报告】AIGC专题三：2025字节跳动：深度布局AIGC，竞逐新一轮技术浪潮（附PDF下载）

【精选报告】AIGC专题一：量子位智库：2025中国AIGC应用全景图谱（附PDF下载）

2025 最新版：用Python快速上手人工智能与机器学习

#美国16岁男孩自杀父母起诉Chatgpt#美国一名16岁男孩自-20250827170228

Beam：Python生态下安全高效的无服务器AI基础设施，专为-20250827214011

2025 年 7 月 GitHub 十大热门项目排行榜！

GitHub Trending 日报【2025-08-30】

OpenAI发布GPT-Realtime，AI Agent进入超逼真对话时代；腾讯混元开源视频音效生...

前OpenAI、DeepMind研究员领衔，50+位专家谈AI编程、Agent与具身智能，2025全...

轻量级 Python MCP 服务器，助力本地 ComfyUI -20250830125540

关注

Py学习 » Python

在python pandas中,将group by之后的列的多个值合并为一列

H_A • 5 年前 • 3508 次点击

我希望完成与此线程中类似的任务: Merge multiple column values into one column in python pandas

但不同的是,我希望创建一个新列,在按其他列分组后合并列中的所有非空值。下面是一个玩具示例:

df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,'1', np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})

 df
Out[74]: 
     ID1 ID2 Status
 0    1   a    NaN
 1    1   a      1
 2    2   b    NaN
 3    2   b      1
 4    3   c      2
 5    3   c    NaN
 6    3   c      1

然后我想 groupby ID1 和 ID2 :

gr = df.groupby(['ID1','ID2'])

然后,我希望我的结果是这样的:

Out:
   NewCol
0   1
1   1
2   2,1

DataFrame 包含 non-null Status 列分组依据和 ID2号

提前谢谢。

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/56566

3508 次点击

文章 [ 1 ] | 最新文章 5 年前

• 1 楼

jezrael 5 年前

使用 GroupBy.agg 使用lambda函数是最普遍的解决方案:

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a      1
1    2   b      1
2    3   c    2,1

另一个想法是在第一步中删除重复项,但是如果某个组只有错误的值,那么它将从输出中删除,因此有必要进行如下处理 merge

#first group with only NaNs
df= pd.DataFrame({'ID1' : [1,1,2,2,3,3,3],'ID2' : ['a','a','b','b','c','c','c'],
             'Status' : pd.Series([np.nan,np.nan, np.nan,'1','2',np.nan,'1'], 
                                  dtype="category")})


#first group is dropped
df11 = (df.dropna(subset=['Status'])
          .groupby(['ID1','ID2'])['Status']
          .agg(','.join)
          .reset_index())
print (df11)
   ID1 ID2 Status
0    2   b      1
1    3   c    2,1

#added missing pairs and `NaN`s converted to empty strings:
df2 = df.drop_duplicates(['ID1','ID2'])[['ID1','ID2']].merge(df11, how='left').fillna('')
print (df2)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

第一种解决方案:

df1 = df.groupby(['ID1','ID2'])['Status'].agg(lambda x: ','.join(x.dropna())).reset_index()
print (df1)
   ID1 ID2 Status
0    1   a       
1    2   b      1
2    3   c    2,1

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)