使用PyCharm开发pyspark应用程序

发布时间 2024-01-02 15:26:50作者: 田攀攀的博客

  既然要开发pyspark应用程序,那么,首选的IDE当然就是PyCharm了,因为PyCharm是一款专门开发Python的IDE。

  在这里,主要说明一下使用PyCharm开发pyspark程序的几个配置:

  (1)除了设置基本的python interceptor之外,还要设置PYTHONPATH和SPARK_HOME这两个环境变量,而这两个环境变量是在PyCharm里的Edit Configurations里设置的:

 

 

  (2)添加两个zip包(pyspark.zip、py4j-0.10.6-src.zip)

 这两个zip包其实是spark所包含的python里的包,请看:

 具体代码如下:

from pyspark import SparkConf,SparkContext

conf = SparkConf().setMaster("local[2]").setAppName("spark0301")
sc = SparkContext(conf=conf)

data = [1,2,3,4,5]
distData = sc.parallelize(data)
print(distData.collect())

sc.stop()