http://www.cnblogs.com/onetwo/p/5424377.html
1. 软件版本 scala-2.11.8.tgz
spark-1.6.1-bin-hadoop2.6.tgz
2. scala安装
2.1 0master机器安装
- 下载 scala-2.11.8.tgz, 解压到 /usr/scala 目录下,即: /usr/scala/scala-2.11.8。
- 解压:tar -zxvf scala-2.11.8
- 权限
sudo chown -R hadoopmi:hadoopmi scala-2.11.8
- 环境变量
#scala env
export SCALA_HOME=/usr/scala/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile
- scala的shell环境
scala
* 安装slave
2. 安装spark 2.1 0master机器
- 下载 spark-1.6.1-bin-hadoop2.6.tgz,解压到 //spark 目录下。
- 修改 spark-1.6.1-bin-hadoop2.6 目录所属用户和用户组。
sudo chown -R hadoop:hadoop spark-1.6.1-bin-hadoop2.6
- 环境变量:/etc/profile
# Spark Env
export SPARK_HOME=/home/spark-1.6.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
- source /etc/profile
- 进入 Spark 安装目录下的 conf 目录, 拷贝 spark-env.sh.template 到 spark-env.sh。
cp spark-env.sh.template spark-env.sh
- 编辑 spark-env.sh,在其中添加以下配置信息:
export SCALA_HOME=/usr/scala/scala-2.11.8
export JAVA_HOME=/usr/java/jdk1.7.0_79
export SPARK_MASTER_IP=192.168.1.101
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.6.4/etc/hadoop
- slaves.template 拷贝到 slaves, 编辑其内容为:
0slave1
0slave2
0slave3
* slave机器
* 和0master相同
3. 启动spark集群 * 启动yarn
- 启动 Master 节点
运行 start-master.sh
- 启动所有 Worker 节点
运行 start-slaves.sh
- 浏览器查看 Spark 集群信息
http://master:8080
- spark-shell
- 浏览器访问 SparkUI
访问 http://master:4040
- 停止 Master 节点
运行 stop-master.sh 来停止 Master 节点。
- 停止 Worker 节点
运行 stop-slaves.sh 可以停止所有的 Worker 节点
【spark配置(spark集群)】http://www.cnblogs.com/quchunhui/p/5413807.html
推荐阅读
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- docker|Docker
- #|7.分布式事务管理
- python|PyTorch单机多卡分布式训练教程及代码示例
- 分布式 | 动态调整 DBLE 内线程池的数目