我有一个约2000万条记录的数据集,其结构如下:
{"id": "123",
"cites":[
{"id":"234", "date":"2018-05-04"},
{"id":"456","date":"2018-02-01"}]
}
{"id":"234", "cited_by":[{"id":"123"},{"id:"188"}]}
据我所知,这在技术上是一个反向指数。这可以是静态的,所以可以只计算一次。我只看到过关于术语的倒排索引及其在短语中的频率的文档,这是一个非常不同的用例。
我研究过使用聚合,但由于不同id的数量太大,因此会耗尽bucket,我不确定2000万bucket是否可能和/或是一个好主意。
如何生成此索引?在ElasticSearch中是否可能,或者我是否需要编写一个外部脚本来成批执行此操作?