windows环境下单机运行pyspark

发布时间 2023-09-23 00:51:20作者: Bill_H

首先在windows系统中安装pyspark,具体过程可以参考以下两个地址
https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A
https://edu.hellobi.com/course/282/play/lesson/6501

安装好之后,在cmd中输入pyspark,可以看到以下界面

接下来通过以下代码,实现第一个pyspark程序,该程序会统计文本文件CountLine.txt的行数(注意python版本最好是3.7以下,以免findspark包出现不兼容)

import os
import findspark
findspark.init()
from pyspark.sql import SparkSession

os.environ['JAVA_HOME'] = r"D:\install\jdk1.8.0-201"

spark = SparkSession.builder.appName("example").getOrCreate()
sc = spark.sparkContext
print(sc.master)
textFile = sc.textFile('CountLine.txt')
num_lines = textFile.count()
print('文本行数:', num_lines)
print('done!')