我想把pyspark和google colab联系起来。
我有云上mongodb(mlab)的信息。
使用google colab,我执行以下脚本:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://www-eu.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
!tar xf spark-2.3.2-bin-hadoop2.7.tgz
!pip install -q findspark
!pip install pyspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.3.2-bin-hadoop2.7"
并且,在本地环境中,我使用以下行执行py脚本:
spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.5 wordcount.py
但是,在云上我不能直接执行它。。。
确切地说,最初的脚本是:
uri_in = "mongodb://{}:{}@{}.speeches".format(mongo_user, mongo_password, mongo_url)
uri_out = "mongodb://{}:{}@{}.wordcount_out".format(
mongo_user, mongo_password, mongo_url
)
spark = (
SparkSession.builder.appName("discursos.counter")
.config("spark.mongodb.input.uri", uri_in)
.config("spark.mongodb.output.uri", uri_out)
.getOrCreate()
)
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()
我能用pyspark连接mongodb google colab吗?
谢谢!