1.确认Java已安装
在CentOS上运行以下命令以确认Java是否已安装:
java -version
如果Java未安装,请按照以下步骤进行安装:
sudo yum install java-1.8.0-openjdk-develx
修改/etc/profile文件,末尾添加
export JAVA_HOME=/usr/local/src/jdk1.8.0_291 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
2.下载Spark
在Spark官网上下载Spark压缩包,解压到指定目录下:
$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz $ tar zxvf spark-3.1.2-bin-hadoop3.2.tgz $ mv spark-3.1.2-bin-hadoop3.2 /opt/spark
3.配置环境变量
在/etc/profile文件中添加以下内容(包括了上面的jdk配置):
export JAVA_HOME=/usr/local/src/jdk1.8.0_291 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
然后执行以下命令,使环境变量生效:
$ source /etc/profile
4.配置Spark Standalone集群
在Spark Standalone模式下,需要配置主节点和从节点。以下是配置主节点和从节点的步骤:
配置主节点
在主节点上,创建一个配置文件/opt/spark/conf/spark-env.sh,并添加以下内容:(/opt/spark/conf/spark-env.sh.template改名即可)
export SPARK_MASTER_HOST=172.17.207.167 export SPARK_MASTER_PORT=7077 export SPARK_MASTER_WEBUI_PORT=8080 export JAVA_HOME=/usr/local/src/jdk1.8.0_291 export SPARK_WORKER_INSTANCES=1 export SPARK_WORKER_MEMORY=1g export SPARK_WORKER_CORES=1
其中,SPARK_MASTER_HOST 是主节点的IP地址,SPARK_MASTER_PORT是主节点端口号。
5.启动Spark Standalone集群
$SPARK_HOME/sbin/start-master.sh
6.启动从节点
#$SPARK_HOME/sbin/start-worker.sh spark://172.17.207.167:7077
7.检查Spark是否正在运行
可以通过访问http://172.17.207.167:8080来检查Spark是否正在运行。