社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

多因子AI机器学习指标：自适应波段量化趋势【通达信指标】学习

10天暴涨20k Star！20岁大学生开源多Agent舆情分析神器登上GitHub热榜第一

用 Python 预测股价？这个模型提前 3 天告诉你涨跌

#AI前沿速递# AI 排名更新：ChatGPT 领先但不再一家-20251116163223

这个 GitHub 神器 30 秒搞定网站部署，贼给力。

Python 3.14.0正式发布

告别收费OCR！这款GitHub开源神器，把DeepSeek大模型装进你的电脑，离线免费用！

再见Navicat、XShell！一款高颜值的数据库、SSH、Docker管理工具！

机器学习学术速递[11.17]

Elasticsearch 避坑指南：我在项目中总结的 14 条实用经验

关注

Py学习 » Python

python pandas:按其他列分组时创建累积平均值

Nicolas • 6 年前 • 2279 次点击

想象一下这样一张桌子:

name | value 
-----|------
Jack | 0    
Jack | 1
Jack | 0.5
Jack | 1
Jill | 0
Jill | 2

对于每个名字,我希望得到累积平均值,如下所示:

name | value | cumAverage
-----|-------|-----------
Jack | 0     | 0
Jack | 1     | 0.5
Jack | 0.5   | 0.5
Jack | 1     | 0.625
Jill | 0     | 0
Jill | 2     | 1

因此,每当出现新名称时,累积平均值就应该“重新启动”。 name列被排序,因此每当出现一个新名称时,当前的累积平均值就结束了。

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/46679

文章 [ 2 ] | 最新文章 6 年前

• 1 楼

Alexander 6 年前

即使名字没有按 transforming 这个 expanding 函数..

>>> df.assign(cumAverage=df.groupby('name', sort=False)['value'].transform(lambda x: x.expanding().mean()))
   name  value  cumAverage
0  Jack    0.0       0.000
1  Jack    1.0       0.500
2  Jack    0.5       0.500
3  Jack    1.0       0.625
4  Jill    0.0       0.000
5  Jill    2.0       1.000

# Unsorted dataframe.
df = pd.DataFrame({"name": ['Jack'] * 3 + ['Jill'] * 2 + ['Jack'], "value": [0, 1, .5, 0, 2, 1]})
>>> df.assign(cumAverage=df.groupby('name', sort=False)['value'].transform(lambda x: x.expanding().mean()))
   name  value  cumAverage
0  Jack    0.0       0.000
1  Jack    1.0       0.500
2  Jack    0.5       0.500
3  Jill    0.0       0.000
4  Jill    2.0       1.000
5  Jack    1.0       0.625

• 2 楼

anky_91 6 年前

你需要 expanding().mean() 使用Groupby:

df.groupby('name')['value'].expanding().mean().reset_index(0)

对于未排序的df,以下命令将起作用:

df.groupby('name')['value'].expanding().mean().reset_index(0).sort_index()

   name  value
0  Jack  0.000
1  Jack  0.500
2  Jack  0.500
3  Jack  0.625
4  Jill  0.000
5  Jill  1.000

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)