社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

#机器学习# 【康奈尔团队首创微波神经网络，完全集成于硅微芯片且-20250820174022

突发！知名剪贴板工具 Ditto 遭开发者"删库"，GitHub 代码全清空｜但同时...今天又发布...

URDFly：专为机械臂设计的 Python 工具包，聚焦 UR-20250819182205

机器学习学术速递[8.19]

科技爱好者周刊#362：GitHub 工程师谈系统设计

【AI加油站】第四十八部：Github持续霸榜！「Leetcode刷题笔记」解题思路/代码/模板开放...

全球95%企业AI惨败？MIT报告引硅谷恐慌！90%员工偷用ChatGPT续命

OCS光交换机-深度学习

【#OpenAI推出印度专属低价订阅计划# ChatGPT Go-20250819120449

全球95%企业AI惨败？MIT报告引硅谷恐慌！90%员工偷用ChatGPT续命

关注

Py学习 » Elasticsearch

在Elasticsearch中创建数字字段的反向索引

J. Born • 5 年前 • 295 次点击

我有一个约2000万条记录的数据集,其结构如下:

{"id": "123",
 "cites":[
    {"id":"234", "date":"2018-05-04"},
    {"id":"456","date":"2018-02-01"}]
}

{"id":"234", "cited_by":[{"id":"123"},{"id:"188"}]}

据我所知,这在技术上是一个反向指数。这可以是静态的,所以可以只计算一次。我只看到过关于术语的倒排索引及其在短语中的频率的文档,这是一个非常不同的用例。

我研究过使用聚合,但由于不同id的数量太大,因此会耗尽bucket,我不确定2000万bucket是否可能和/或是一个好主意。

如何生成此索引?在ElasticSearch中是否可能,或者我是否需要编写一个外部脚本来成批执行此操作?

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/54642

295 次点击

文章 [ 1 ] | 最新文章 5 年前

• 1 楼

YouXiang-Wang 5 年前

在您的案例中使用ElasicSearch没有问题。
创建索引的脚本

PUT /city_index
{
  "mappings": {
  "citydata": {
    "dynamic": "false",
    "properties": {
      "id": {
        "type": "keyword"

      },
      "cited_by": {
        "type": "object",
        "properties": {
          "id": {
            "type": "keyword"
          }
        }
      }
    }
  }
  }
}

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)