社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

#AI落地项目合集##LLM实战项目大全#GitHub揽获62.-20250825145732

【报告】AIGC专题三：2025字节跳动：深度布局AIGC，竞逐新一轮技术浪潮（附PDF下载）

上海交大团队研发HFML混合机器学习框架，定向筛选高熵钠电正极材料：从AI预测、实验验证到百公斤中试

GPT-5系统提示词被泄露，ChatGPT自己也“承认”了

量化前沿速递：机器学习[20250824]

MIT最新报告：全球95%企业AI惨败！九成员工偷用ChatGPT续命

(from 饼干哥哥) GitHub 上 17 个优秀的 Cla-20250826081440

【精选报告】AIGC专题一：量子位智库：2025中国AIGC应用全景图谱（附PDF下载）

ChatGPT 4.5 国内直接用！

深度学习入门与进阶的核心阅读清单，Ilya Sutskever -20250826065855

私信 • 关注

satyam soni

satyam soni 最近创建的主题

» satyam soni 创建的更多主题

satyam soni 最近回复了

6 年前

回复了 satyam soni 创建的主题 » 如何使用Python计算大文件中每个数字的每次出现次数

我想这对你来说是更优雅的解决方案。将文件读入pandas数据框,按分组并计算对数。

import pandas as pd
d = [(1,2,3),(1,2,4),(1,2,1),(1,1,5),(1,4,5),(1,1,8)]

cntdt = pd.DataFrame(d,columns=['x','y','cnt'])
cntdt.head()

s = cntdt.groupby(['y','x']).size()

#to get the dataframe
s.to_frame('count').reset_index()

#to get the dictionary
s.to_dict()

字典输出:{(1,1):2,(2,1):3,(4,1):1} 数据帧输出:

<table border="1" class="dataframe"> <thead>   <tr style="text-align: right;">     <th></th>     <th>y</th>     <th>x</th>     <th>count</th>   </tr> </thead> <tbody>   <tr>     <th>0</th>     <td>1</td>     <td>1</td>     <td>2</td>   </tr>   <tr>     <th>1</th>     <td>2</td>     <td>1</td>     <td>3</td>   </tr>   <tr>     <th>2</th>     <td>4</td>     <td>1</td>     <td>1</td>   </tr> </tbody></table>

» satyam soni 创建的更多回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)