既然要开发pyspark应用程序,那么,首选的IDE当然就是PyCharm了,因为PyCharm是一款专门开发Python的IDE。
在这里,主要说明一下使用PyCharm开发pyspark程序的几个配置:
(1)除了设置基本的python interceptor之外,还要设置PYTHONPATH和SPARK_HOME这两个环境变量,而这两个环境变量是在PyCharm里的Edit Configurations里设置的:
(2)添加两个zip包(pyspark.zip、py4j-0.10.6-src.zip)
这两个zip包其实是spark所包含的python里的包,请看:
具体代码如下:
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local[2]").setAppName("spark0301")
sc = SparkContext(conf=conf)
data = [1,2,3,4,5]
distData = sc.parallelize(data)
print(distData.collect())
sc.stop()