Spark集群部署

2019-12-24

前言

本次基于Standalone的Spark集群部署使用3台服务器，分布如下：

服务器地址	hostname	Master	Worker
10.57.22.116	tdcdh116	no	yes
10.57.22.117	tdcdh117	no	yes
10.57.22.119	tdcdh119	yes	yes

一、部署

下载地址：https://archive.apache.org/dist/spark/spark-2.3.4/

A. 解压安装包

1	tar -xvf spark-2.3.4-bin-hadoop2.7.tgz

B. 更改包名称为spark-2.3.4

1	mv spark-2.3.4-bin-hadoop2.7/spark-2.3.4

C. 配置slaves（即Worker主机）

1）进入包目录：/data01/bigdata/spark-2.3.4/conf

2) 复制文件：cp slaves.template slaves

3) 修改文件：vi slaves

1
2
3

tdcdh116
tdcdh117
tdcdh119

D. 配置spark-env.sh

1）新建work目录：mkdir /data01/bigdata/spark-2.3.4/work

2) 复制文件：cp spark-env.template spark-env.sh

3) 修改文件：vi spark-env.sh

新增如下配置：

#主节点ip或hostname
export SPARK_MASTER_HOST=tdcdh119
#主节点的端口
export SPARK_MASTER_PORT=7077
#worker的工作目录区
export SPARK_WORKER_DIR=/data01/bigdata/spark-2.3.4/work
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export JAVA_HOME=/data01/admin/local/jdk8u191
export HADOOP_HOME=/data01/bigdata/hadoop-2.7.7
export HADOOP_CONF_DIR=/data01/bigdata/hadoop-2.7.7/etc/hadoop

E. 将包拷贝到所有机器

1 2	scp -r spark-2.3.4 admin@10.57.22.116:/data01/bigdata/ scp -r spark-2.3.4 admin@10.57.22.117:/data01/bigdata/

F. 环境变量配置

1）修改sudo vi ~/.bashrc

1 2	export SPARK_HOME=/data01/bigdata/spark-2.3.4 export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

2）生效：source ~/.bashrc

G. 启动项目

只需要在Master(10.57.22.119)节点启动即可

1 2	cd /data01/bigdata/spark-2.3.4 sbin/start-all.sh

二、项目验证

http://10.57.22.119:8080/

三、参考文档

https://blog.csdn.net/qq_42825815/article/details/84071702
https://www.cnblogs.com/lyy-blog/p/9636070.html

四、备注

需要免密登录, 参考《HDFS集群部署》