Py学习  »  MongoDB

从google colab将pyspark与mongodb连接起来

JonyLoscal • 4 年前 • 765 次点击  

我想把pyspark和google colab联系起来。 我有云上mongodb(mlab)的信息。

使用google colab,我执行以下脚本:

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://www-eu.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
!tar xf spark-2.3.2-bin-hadoop2.7.tgz
!pip install -q findspark
!pip install pyspark

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.3.2-bin-hadoop2.7"

并且,在本地环境中,我使用以下行执行py脚本:

spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.5 wordcount.py

但是,在云上我不能直接执行它。。。

确切地说,最初的脚本是:

uri_in = "mongodb://{}:{}@{}.speeches".format(mongo_user, mongo_password, mongo_url)

uri_out = "mongodb://{}:{}@{}.wordcount_out".format(
    mongo_user, mongo_password, mongo_url
)

spark = (
    SparkSession.builder.appName("discursos.counter")
    .config("spark.mongodb.input.uri", uri_in)
    .config("spark.mongodb.output.uri", uri_out)
    .getOrCreate()
)

df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()

我能用pyspark连接mongodb google colab吗?

谢谢!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/52545
 
765 次点击