PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行. 下图是,PySpark类库和标准Spark框架的简单对比 本栏目推荐文章PySpark类库pyspark实现wordcount案例提交pyspark作业到服务器上运行使用PyCharm开发pyspark应用程序开始pyspark------------jupyter notebook 读取CSV文件pyspark UDF调用自定义python函数PySpark判断Hdfs文件路径是否存在pyspark数据写入文件及数据库hivepyspark 广播变量和累加器pyspark 连接hivePySparkpyspark文件 pyspark-shell pyspark服务器 pyspark-sql 案例pyspark wordcount案例pyspark pyspark-shell pyspark shell notebook pyspark jupyter文件 pyspark-sql pyspark sql 路径pyspark文件hdfs