前言
本次基于Standalone的Spark集群部署使用3台服务器,分布如下:
服务器地址 | hostname | Master | Worker |
---|---|---|---|
10.57.22.116 | tdcdh116 | no | yes |
10.57.22.117 | tdcdh117 | no | yes |
10.57.22.119 | tdcdh119 | yes | yes |
一、部署
下载地址:https://archive.apache.org/dist/spark/spark-2.3.4/
A. 解压安装包
1 | tar -xvf spark-2.3.4-bin-hadoop2.7.tgz |
B. 更改包名称为spark-2.3.4
1 | mv spark-2.3.4-bin-hadoop2.7/spark-2.3.4 |
C. 配置slaves(即Worker主机)
1)进入包目录:/data01/bigdata/spark-2.3.4/conf
2) 复制文件:cp slaves.template slaves
3) 修改文件:vi slaves
1 | tdcdh116 |
D. 配置spark-env.sh
1)新建work目录:mkdir /data01/bigdata/spark-2.3.4/work
2) 复制文件:cp spark-env.template spark-env.sh
3) 修改文件:vi spark-env.sh
新增如下配置:
1 | #主节点ip或hostname |
E. 将包拷贝到所有机器
1 | scp -r spark-2.3.4 admin@10.57.22.116:/data01/bigdata/ |
F. 环境变量配置
1) 修改sudo vi ~/.bashrc
1 | export SPARK_HOME=/data01/bigdata/spark-2.3.4 |
2)生效:source ~/.bashrc
G. 启动项目
只需要在Master(10.57.22.119)节点启动即可
1 | cd /data01/bigdata/spark-2.3.4 |
二、项目验证
三、参考文档
https://blog.csdn.net/qq_42825815/article/details/84071702
https://www.cnblogs.com/lyy-blog/p/9636070.html
四、备注
需要免密登录, 参考《HDFS集群部署》