社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

关注

Py学习 » MongoDB

可以在<1秒内通过SQL运行此查询,但聚合MongoDB不能在45分钟内从具有相同索引的相同数据集运行

SuperSecretAndHiddenFromWork • 4 年前 • 228 次点击

我有一个数据集(1100万行),其中包括支付给公司的款项,结构如下:

id : 12345678,
company_id : 123456,
payment_value : 50,
payer_id: 111111,
payment_date: "20/01/2017"
payer_name: "John Smith",
...<70ish more columns with mostly blank data>...

有60万个公司ID,我想将其分组,并显示支付总额最高的公司ID

这是我拥有的mongo shell(db版本:4.0.1)代码:

db.pay.aggregate([
 {$project: {_id:1, company_id:1, payment_value:1}},
 {$group: {_id: "$company_id", total_value: {$sum: "$payment_value"}}},
 {$sort: {total_value: -1},
 {$limit: 1}],
 {allowDiskUse: true})

它不会在45分钟内运行!我有一个关于公司ID的索引,这看起来像是一个直接的查询

我把它加载到Postgresdb中并写道:

SELECT 
company_id,
SUM(payment_value)
FROM payments
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1

这花了1秒钟。我对mongodb collection和postgres表使用相同的索引方法

我在这里对MongoDB做了什么错误?

谢谢你抽出时间

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/38537

228 次点击

文章 [ 1 ] | 最新文章 4 年前

• 1 楼

SuperSecretAndHiddenFromWork 5 年前

我已经设法在一定程度上提高了性能:

通过在终端中设置ulimits和rlimits来更改MongoDB可用资源的限制 -在聚合查询结束时使用allowdishuse:true

登录后回复

关于移动版 · 三行代码 · 今天看啥 · Code · link之家 · 卧龙搜索 · 藏经阁 · 小百科

Py学习 - 专注于Python技术发展的社区(原Django社区)