pyspark写入文件

发布时间 2023-08-13 15:53:51作者: steve.z
#
#   py_spark_rdd2py.py
#   py_learn
#
#   Created by Z. Steve on 2023/8/13 11:39.
#


# 1. rdd.collect() 将 rdd 变为 list

# 2. rdd.reduce() 不分组, 对 rdd 数据做两两聚合

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("demo")
sc = SparkContext(conf=conf)
rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7])

# # reduce() 算子。不分组, 只对数据进行聚合,聚合规则由 lambda 表达式提供
# # 注意 reduce() 算子返回的是 原来 rdd 中元素的类型,不是 rdd 对象. 与 reduceByKey() 不一样
# sum = rdd.reduce(lambda a, b: a + b)
# print(sum)

# # 3. take() 算子. 取出 rdd 中的前 n 条数据
# list_result = rdd.take(4)
# print(list_result)


# 4. count() 算子, 计算 rdd 内有多少条数据
count_result = rdd.count()
print(count_result)

# 5. 将数据写入到文件中 saveAsTextFile()
rdd.saveAsTextFile(r"/Users/stevexhz/PycharmProjects/py_learn/pywrite.txt")

sc.stop()