社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

Github 今日推荐 WebGL2神技！deck.gl：秒渲海量数据的可视化神器"

Nginx和Apache要成旧爱了？PHP有了新搭档：缝合怪FrankenPHP！

【2025版附安装包】超详细Python+Pycharm安装保姆级教程，永久免费使用，Python环...

ChatGPT化身生活操作系统：奥特曼预告下一代顶级AI

西南交通大学张云辉团队JH｜利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...

懒人福音！5行Python代码让电脑自己干活，再也不用重复点鼠标了

ChatGPT惨败Llama！MIT官宣AI开飞船0%失败率，马斯克火星殖民不再是梦

Altman嘲讽小扎挖走的都不是顶尖人才！OpenAI高管再营业曝内幕：ChatGPT爆红后，我火速...

多邻国联姻瑞幸；if椰子水母企IPO市值冲上100亿；阿里巴巴美国站推B2B先买后付 | TopDi...

通透！！机器学习、深度学习、人工智能的区别和联系！

关注

Py学习 » Elasticsearch

是否有人能够使用elasticsearch xpack sql和Spark?

codeBarer • 5 年前 • 488 次点击

使用PySpark我试图从elasticsearch读取数据。通常,我会将查询设置为行上的某个内容(请参见下面的查询),并将es.resource设置为索引,例如“my_index/doc”,这样我就可以将数据读入spark:

q ="""{
          "query": {
              "match_all": {}
          }  
      }"""

Py4JJavaError: An error occurred while calling 
z:org.apache.spark.api.python.PythonRDD.newAPIHadoopRDD.
: org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: 
org.elasticsearch.hadoop.rest.EsHadoopRemoteException: 
invalid_index_name_exception: Invalid index name [_xpack], must not start with '_'.
null

有没有人试过使用xpack或者知道如何从Elasticsearch hadoop插件执行Elasticsearch SQL查询?

q = """{"query": "select * from eg_flight limit 1"}"""

es_read_conf = {
    "es.nodes" : "192.168.1.71,192.168.1.72,192.168.1.73",
    "es.port" : "9200",
    "es.resource" :  "_xpack/sql",
    "es.query" : q
}

es_rdd = sc.newAPIHadoopRDD(
    inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
    keyClass="org.apache.hadoop.io.NullWritable", 
    valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable", 
    conf=es_read_conf)

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/53808

488 次点击

文章 [ 1 ] | 最新文章 5 年前

Reply

• 1 楼

codeBarer 6 年前

我认为这个功能不受支持。PySpark中的另一个解决方案是使用JDBC驱动程序,我确实尝试过。我尝试了以下方法:

es_df = spark.read.jdbc(url="jdbc:es://http://192.168.1.71:9200", table = "(select * from eg_flight) mytable")

Py4JJavaError: An error occurred while calling o2488.jdbc.
: java.sql.SQLFeatureNotSupportedException: Found 1 problem(s)
line 1:8: Unexecutable item

...

另一种方法是使用核心Python和请求,但我不建议对大型数据集使用它。

import requests as r
import json


es_template = {
    "query": "select * from eg_flight"
}

es_link = "http://192.168.1.71:9200/_xpack/sql"
headers = {'Content-type': 'application/json'}


if __name__ == "__main__":

    load = r.post(es_link, data=json.dumps(es_template), headers=headers)
    if load.status_code == 200:
        load = load.json()
        #do something with it

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号