【无标题】笔记

数据格式
txt doc 文本文件
xml/html 标签的结构化数据存储配置信息
json
csv
parquet 列式存储格式
orc 列式存储格式
hdfs 文件存储格式
hdfs 文件存储格式分为两大类行存储和列存储
行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中
列存储列存储会把文件切割成若干列,每一列存储在一起,是需要那一列读取那一列,不需要的不用读取,例如parquet ORCfile,RCfile,列存储不适合流式写入,写入失败当前文件无法恢复因此flume采用行存储,列存储由于每一列中的数据类型相同所以可以根据数据类型选择适合的编码和压缩格式
SequenceFile:Hadoop提供的一个行存储结构,Hadoop适合处理大文件而不适合处理小文件,所以sequencefile是为小文件提供的一种容器,将小文件包装起来形成一个SequenceFile类, 它用一种的形式序列化数据导文件中
MapFile:MapFile可以看做有序的SequenceFile,是排过序的SequenceFile,它有索引可以按照索引查找,索引作为一个单独的文件存储,一般128个记录存储一个索引,索引可以载入内存,方便快速查找
hdfs 最开始只有行存储的这两种形式 SequenceFile和macFile,除此之外还有text文本,但是之后再hive中丰富了存储结构包括如下几种
RCFile:hive的RCfile 是将数据按照行分组 ,组内在按照列划分储存
ORCfile:是RCfile的升级版,将数据划分为默认大小为250MB的stripe(条带),每个stripe包含索引,数据和footer,ORCfile包换索引比RCfile更加高效
Parquet:parquet基于Google的dremel,擅长处理深度嵌套的数据(有点类似于嵌套多层的json格式),parquet会将嵌套结构整合为平面列存储,
报错：network is unreachable
systemctl stop NetworkManager
service network restart 其他安装
yum -y install tree.x86_64 安装以树形展示文件目录命令在文件下运行tree会展示该目录下所有文件
版本问题：Java版本对Hadoop的hbase的支持？？？？？？？？？？
一键启动：start-dfs.sh start-yarn.sh start-hbase.sh
关机 halt:停止、停下重启 reboot
mysl up：Linux：root root
mysl up：mgh： root root
1、Linux系统的安装：
安装VMware，创建虚拟机，稍后安装操作系统，安装完以后选择从cd/dvd下将操作系统的文件打开，加载和安装系统。
2、配置虚拟机网络
(1)设置虚拟交换机：VMware菜单栏：编辑–>虚拟网络编辑器–>更改设置
NAT模式–>查询到子网IP(前三位网段)–>NAT设置–>设置网关IP(虚拟交换机的IP)
子网IP，即网段 192.168.109
网关IP，即虚拟交换机IP：192.168.109.2

(2) windows系统设置：网络-->更改适配器选项-->VMwareNAVMnet8-->属性 -->TCP/ipv4属性-->设置ip地址，子网掩码，网关IP，即虚拟交换机IP：19.168.109.2 (3)设置Linux虚拟机的网络配置： /etc/sysconfig/network-scripts/ifcfg-ens33 设置本机IP地址，子网掩码，网关Ip:192.168.109.2 (4)配置系统映射信息 Windows系统：C:\Windows\System32\drivers\etc下的hosts文件打开--> 192.168.109.9mgh01 192.168.109.11mgh02 192.168.109.13mgh03 将虚拟机的IP地址与主机名形成映射关系，这样就可以根据主机名在cmd中ping到该Linux虚拟机也可以在CRT软件中根据设置的主机名连接，连接时，主机名会对应到IP地址 Linux系统： vi etc/hostname：-->更改本机主机名为mgh01 vi etc.hosts:--> 192.168.109.1windows 192.168.109.9mgh01 192.168.109.11mgh02 192.168.109.13mgh03 将该IP与主机名的映射配置信息添加，这样可以本机的IP与主机名形成映射

安装软件：
安装jdk：
解压：
安装rz相关命令，传出jdk到apps目录下，解压tar -zxvf 文件名
配置环境变量：
vi /etc/profile export JAVA_HOME=/opt/apps/jdk1.8.0_261/
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin
source /etc/profile:将环境变量添加到系统中

java -version

克隆机器：
在VMware软件中，关机。
菜单栏中–>虚拟机–>管理–>克隆
克隆完毕后–>开机–>修改主机名(vi /etc/hostname–>)
修改本机的ip地址(vi /etc/sysconfig/network-scripts/ifcfg-ens33)
reboot 安装Hadoop
rz上传–>tar -zxvf hadoop 解压
配置环境：
(1)配置Hadoop的Java环境
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hadoop-env.sh文件中
vi 该文件 /export 搜索配置Java home的行，将注释放开
$JAVA_HOME 查到Java home的配置位置在：/opt/apps/jdk1.8.0_261/
将路径复制到export后面，保存退出
(2)配置Hadoop的位置信息：
/opt/apps/hadoop-3.1.1/etc/hadoop/下的hdfs-site.xml文件
vi 该文件：
/opt/hdpdata/name 存储元数据的文件路径
/opt/hdpdata/data 存储数据的文件路径
将以下信息配置在该文件中

dfs.namenode.rpc-address mgh01:8020 dfs.namenode.name.dir /opt/hdpdata/name dfs.datanode.data.dir /opt/hdpdata/data dfs.namenode.secondary.http-address mgh02:50090

分发Hadoop到机器集群上
cd /opt/apps/

需要跨机器免密传输-->创建免密传输的密钥： ssh-keygen 生成密钥 ssh-copy-id mgh01/02/03 将密钥传输给各个虚拟机包括自己在每台机器进行相同的操作 scp -r hadoop-3.1.1 mgh02:$PWDscp -r hadoop-3.1.1 mgh03:$PWD将文件分发到集群中

关闭防火墙：
systemctl disable firewalld 禁用
systemctl enable firewalld 启用
systemctl status firewalld 查看状态
同步时间：
date -s ‘’

NTP(Network Time Protocol)协议 yum -y install ntpdate安装时间同步 ntpdate 0.asia.pool.ntp.org 时间同步centos8 时间自动同步？？？

初始化Hadoop
/opt/apps/hadoop-3.1.1/bin路径下
hadoop namenode -format 初始化成功以后：/opt/hdpdata/name 文件路径被创建
启动：/opt/apps/hadoop-3.1.1/sbin文件下运行：./hadoop-daemon.sh start namenode启动namenode
:./hadoop-daemon.sh start datanode启动datanode
配置一键启动：
配置环境变量：
hadoop安装路径 /opt/apps/hadoop-3.1.1/
vi /etc/profile export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
PATH=: H A D O O P H O M E / b i n e x p o r t P A T H = HADOOP_HOME/bin export PATH= HADOOPH?OME/binexportPATH=PATH: J A V A H O M E / b i n : JAVA_HOME/bin: JAVAH?OME/bin:HADOOP_HOME/bin:$HADOOP_HOME/sbin
将sbin的路径配置到系统中。启停Hadoop的时候用的是sbin下的命令

********source /etc/profile********配置workers文件 /opt/apps/hadoop-3.1.1/etc/hadoop下的workers文件中工作的主机只有本机 vi workers：将工作的主机改为一下 mgh01 mgh02 mgh03 修改启动停止脚本的配置：/opt/apps/hadoop-3.1.1/sbin start-dfs.sh： stop-dfs.sh： HDFS_DATANODE_USER=root HADOOP_SECURE_DN_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root ********修改默认的操作hdfs文件系统***让默认操作的文件系统是HDFS分布式文件系统 /opt/apps/hadoop-3.1.1/etc/hadoop下的core-site.xml中添加 fs.defaultFS hdfs://mgh01:8020

=================================================================================================
YARN的安装：/opt/apps/hadoop-3.1.1/etc/hadoop:文件夹下的yarn-site.xml文件中添加

yarn.resourcemanager.hostname
mgh01

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.resource.memory-mb
4096

yarn.nodemanager.resource.cpu-vcores
4

yarn.nodemanager.vmem-check-enabled
false

yarn.nodemanager.vmem-pmem-ratio
2.1

在：/opt/apps/hadoop-3.1.1/sbin路径下的start-yarn.sh 和stop-yarn.sh两个文件加入以下配置信息：
#start-yarn.sh stop-yarn.sh 将此行加入文件中导致不断启动与停止yarn，从而打开的bash文件过多，
超过1000，报bash: warning: shell level (1000) too high, resetting to 1 错误
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
yarn的启动和停止：
start-yarn.sh stop-yarn.sh zookeeper的安装：
(1)tar -zxf zookeeper 解压完成后将/opt/apps/zookeeper-3.4.6/conf路径下的文件名为zoo_sample.cfg的文件
重命名为zoo.cfg
(2)/opt/apps/zookeeper-3.4.6/路径下创建zkData文件夹
(3)修改配置文件：/opt/apps/zookeeper-3.4.6/conf/zoo.cfg
将dataDir=/tmp/zookeeper的路径改为/opt/apps/zookeeper-3.4.6/zkData
将clientPort=2181，不必修改
添加主机的配置信息为：
server.1=mgh01:2888:3888
server.2=mgh02:2888:3888
server.3=mgh03:2888:3888
(4)在文件夹/opt/apps/zookeeper-3.4.6/zkData下，创建并追加主机号，和配置信息一致：echo 1(server.1) > myid(/opt/apps/zookeeper-3.4.6/zkData)

(5)分发zookeeper到集群中，并修改myid的信息，与主机名一致：echo 2(server.2) > myid ; echo 3(server.3) > myid zookeeper的启动： /opt/apps/zookeeper-3.4.6/bin/zkServer.sh start启动zookeeper /opt/apps/zookeeper-3.4.6/bin/zkServer.sh status 查看zookeeper的状态，谁是leader与follower

============================================================================================================
HBase的安装：
下载、上传、解压
(1)启动zookeeper
(2)启动hdfs
(3)时间同步
(4)配置HBase相关信息：
配置HBase的环境变量：/opt/apps/hbase-2.2.5/conf下的hbase-env.sh文件中
将JAVA_HOME修改并释放注释(#)：export JAVA_HOME=/opt/apps/jdk1.8.0_261/
在非插入模式下用(/ZK)搜索，找到export HBASE_MANAGES_ZK=false，并释放掉注释，修改true为false

修改在路径/opt/apps/hbase-2.2.5/conf下的位置文件信息hbase-site.xml：添加下列信息： hbase.rootdir hdfs://mgh01:8020/hbase hbase.cluster.distributed true hbase.unsafe.stream.capability.enforce false hbase.zookeeper.quorum mgh01:2181,mgh02:2181,mgh03:2181 修改启动集群的机器：在路径/opt/apps/hbase-2.2.5/conf下的regionservers文件：将localhost本机启动修改为： mgh01 mgh02 mgh03 集群分发 scp -r hbase-2.2.5 mgh02:$PWD scp -r hbase-2.2.5 mgh03:$PWD 启动HBase: (1)单节点启动： /opt/apps/hbase-2.2.5/bin/hbase-daemon.sh start master /opt/apps/hbase-2.2.5/bin/hbase-daemon.sh start regionserver zookeeper的修改配置文件：/opt/apps/hbase-2.2.5/conf/zoo.cfg下将本机地址改为0.0.0.0 ，本次发现会导致Hmaster自动掉线，修改完以后，重启不再掉线 (2)一键启动：将hbase的安装路径/opt/apps/hbase-2.2.5添加到虚拟机的环境变量中，vi/etc/profile exportHBASE_HOME=/opt/apps/hbase-2.2.5/ exportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin source /etc/profile (3)一键启动命令 start-hbase.sh

=======================================================================================================================
centos8下MySQL的安装：https://www.cnblogs.com/kasnti/p/11929030.html u:root p:mgh199458
(1)使用最新的包管理器安装MySQL: sudo dnf install @mysql
(2)安装完成后，运行以下命令来启动MySQL服务并使它在启动时自动启动: sudo systemctl enable --now mysqld
(3)检查MySQL服务器是否正在运行: sudo systemctl status mysqld
(4)运行mysql_secure_installation脚本，该脚本执行一些与安全性相关的操作并设置MySQL根密码：sudo mysql_secure_installation
要求你配置VALIDATE PASSWORD component（验证密码组件）：输入y ，回车进入该配置
选择密码验证策略等级，我这里选择0 （low），回车输入新密码两次
确认是否继续使用提供的密码？输入y ，回车
移除匿名用户？输入y ，回车
不允许root远程登陆？我这里需要远程登陆，所以输入n ，回车
移除test数据库？输入y ，回车
重新载入权限表？输入y ，回车安装mysql:
yum -y install wget
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server
service mysqld start
netstat -nltp | grep 3306
grep “password” /var/log/mysqld.log
mysql -uroot -p :此处密码如果有特殊字符，用单引号将密码包围起来
set global validate_password_policy=0;
set global validate_password_length=1;
ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root’;
===============================================================================================================================
安装HIVE：
(1)启动Hadoop和YARN
(2)安装mysql
(3)启动mysql，开启MySQL的远程登陆权限：设置以下两步，防止因为密码过于简单，通不过命令
set global validate_password_policy=0;
set global validate_password_length=1;
(4)开启远程登陆权限：grant all privileges on . to ‘root’@’%’ identified by ‘root’ with grant option; 授予所有的特权给所有的用户，其身份为root，且被授权
flush privileges; 刷新特权，
完成授权以后，在windows系统中用navicat连接测试虚拟机的MySQL是否可以远程登录：主机设为mgh01,用户root，密码root
(5)安装HIVE，上传，解压.(rz上传–,tar -zxf apache-hive-3.1.2-bin.tar.gz),重命名解压文件，配置hive的环境变量：
将环境变量文件重命名，使其生效：mv ./hive-env.sh.template(环境变量的模板文件) hive-env.sh
在环境变量文件中添加Hadoop环境和hive的hive环境conf的路径
vi /opt/apps/hive-3.1.2/conf/hive.env.sh
export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/opt/apps/hive-3.1.2/conf

(6)修改hive的配置文件：**此处没有hive-site.xml文件直接读取创建，也可以把默认的hive-default.xml.template改成hive-site.xml文件名并配置相关信息 vi /opt/apps/hive-3.1.2/conf/hive-site.xml 添加如下信息：

javax.jdo.option.ConnectionURL jdbc:mysql://mgh01:3306/hive?createDatabaseIfNotExist=true&useSSL=false javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.ConnectionUserName root javax.jdo.option.ConnectionPassword root hive.metastore.warehouse.dir /user/hive/warehouse hive.exec.scratchdir /user/hive/tmp hive.querylog.location /user/hive/log hive.server2.thrift.port 10000 hive.server2.thrift.bind.host 0.0.0.0 hive.server2.webui.host 0.0.0.0 hive.server2.webui.port 10002 hive.server2.long.polling.timeout 5000 hive.server2.enable.doAs true datanucleus.autoCreateSchema false datanucleus.fixedDatastore true hive.execution.engine mr

(7)配置Hadoop的core-site.xml文件，使得hive能够有权限操作hdfs中的文件：vi /opt/apps/hadoop-3.1.1/etc/hadoop/core-site.xml 添加如下信息：

dfs.permissions.enabled false hadoop.proxyuser.root.hosts * hadoop.proxyuser.root.groups * (8)拷贝MySQL的驱动包到hive文件夹中的lib文件夹下：/opt/apps/hive-3.1.2/lib mysql-connector-java-5.1.39.jar 哪一个jar包都可以？？y (9)重启： stop-all.sh start-all.sh (10)初始化hive的元数据库/opt/apps/hive-3.1.2/bin/下的schematool命令 /opt/apps/hive-3.1.2/bin/schematool -initSchema -dbType mysql 其意思为将hive的元数据库类型改为MySQL类型初始化完成以后， 1) 在mysql中多一个hive数据库记录元数据信息可以从windows 远程登录该MySQL查看 2) 启动以后在HDFS中的目录中 /user/hive目录

(11)配置hive的在Linux系统中的环境变量:vi /etc/profile export HIVE_HOME=/opt/apps/hive-3.1.2 export PATH=$PATH.....:$HIVE_HOME/bin source /etc/profile (12)启动HIVE： /opt/apps/hive-3.1.2/bin/下的hive命令或者 /opt/apps/hive-3.1.2/bin下的hiveserver2命令和beeline结合 hiveserver2 &该命令将hive启动，并在后台挂起启动时间较长，查询hive程序的端口是否启动： netstat -nltp | grep 10000 /opt/apps/hive-3.1.2/bin下的beeline命令远程连接MySQL： !connectjdbc:hive2://mgh01:10000 输入用户名：root 密码无，enter键跳过建议第二种方式，&&&&&&&&&

HIVE安装的补充：
HIVE中间服务的配置:配置中间服务，元数据信息统一交给中间服务进行调配，统一管理。
如hive和spark在获取元数据信息时，可以通过中间服务统一调配
在hive的/opt/apps/hive-3.1.2/conf路径下的hive-site.xml文件中添加如下配置信息

hive.metastore.local
false
controls whether to connect to remove metastore server or open a new metastore server in Hive Client JVM

hive.metastore.uris
thrift://linux01:9083

在Linux界面启动元数据服务并挂起 hive --service metastore监听的端口是 9083
netstat -nltp |grep 9083
hive --service metastore &

在进行远程连接的时候，beeline分配的内存不够，报错 code 2？？？？？？？？在Hadoop的/opt/apps/hadoop-3.1.1/etc/hadoop/路径下的hadoop-env.sh文件中配置如下信息，通过搜索快速锁定/CLIENT

export HADOOP_CLIENT_OPTS="-Xmx4g ${HADOOP_CLIENT_OPTS}" 将默认的内存空间提升
jps -v 查看Java进程的默认内存空间
jps -v | grep “Xmx” 在开启hive进程后查看，查看是否修改内存空间成功
配置成功后启动hive的步骤为：
启动Hadoop和yarn start-all.sh
后台启动中间服务 hive --service metastore &
后台启动hive远程连接服务 hiveserver2 &
启动beeline远程服务 beeline
连接 !connec jdbc:hive2://mgh01:10000 输入账号root，跳过密码
===============================================================================================================================
安装clickhouse：
(1)、单节点方式:
安装curl工具 :yum install -y curl
添加click house的yum镜像:添加镜像的作用就是可以在系统中找到该软件的url地址，在安装的时候，根据安装的地址下载相关的文件包
curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash
查看镜像是否安装成功:yum list | grep clickhouse 有返回信息则显示安装成功
clickhouse-client.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
。。。。。
clickhouse-common-static.x86_64 20.5.4.40-1.el7 @Altinity_clickhouse
安装click house的服务端和客户端
yum install -y clickhouse-server clickhouse-client
启动服务daunt
service clickhouse-server start
启动交互式客户端
clickhouse-client -m
(2)、集群安装
===============================================================================================================================
安装CDH
修改本机的ip地址(vi /etc/sysconfig/network-scripts/ifcfg-ens33)为
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.109.17
GATEWAY=192.168.109.2
NETMASK=255.255.255.0
DNS1=192.168.109.2
192.168.109.17 cdh01
192.168.109.19 cdh02
192.168.109.23 cdh03
CDH安装的每台机器的必备:
(1)网络配置配置IP地址、域名映射、修改主机名
(2)免密设置
(3)关闭防火墙
(4)永久关闭SELINUX
(5)配置JDK环境
(6)时间同步
(7)配置本地yum源
(8)一台机器安装MySQL
(9)下载第三方依赖包 ==？？？存疑
yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse fuse-libs redhat-lsb
**********虚拟机的安装步骤:**********集群安装
安装的资源要求对内存要求较高
(1)网络配置
创建虚拟机/构建集群机器–>配置主机名、域名映射、集群中每台机器的IP地址、配置集群机器间的免密登录
(2)关闭每台机器的防火墙
(3)同步集群机器的时间
(4)修改配置，修改目录/etc/selinux/下的config文件，设置SELINUX=disabled
(5)将CDH(Cloudera’s Distribution, including Apache Hadoop)的文件上传到集群中的每台机器或者虚拟机中
(6)每台机器安装JDK，在上传的文件cloudera-repos-6.2.0 文件夹中含由jdk安装包，在该文件夹下安装jdk
查询已安装的java rpm -qa | grep java
卸载 yum remove java*
安装 rpm -ivh oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpm
配置环境变量 vi /etc/profile
末尾添加
export JAVA_HOME=/usr/java/jdk1.8.0_181-cloudera/
export CLASSPATH=.: C L A S S P A T H : CLASSPATH: CLASSPATH:JAVA_HOME/lib
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin
source /etc/profile
java ‐version验证
(7) 将MySQL的驱动包上传到创建的指定文件夹中。每个机器都需要？？存疑
mkdir -p /usr/share/java
**将驱动包重命名，名字中去除版本号如 mysql-connector-java.jar
(8)--单台--机器安装MySQL(**分号结束的是MySQL命令，否则为Linux命令)
yum -y install wget
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql57-community-release-el7-10.noarch.rpm
yum -y install mysql-community-server
service mysqld start
netstat -nltp | grep 3306
grep “password” /var/log/mysqld.log 查看原始密码，原始密码含由特殊字符时，用单引号将密码包围起来
登录 mysql -uroot -pWYEc2Ir
修改密码
set global validate_password_policy=0;
set global validate_password_length=1; 这个两个设置以后密码很简单不会报错
ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root’;
开启MySQL的远程登录权限
grant all privileges on . to ‘root’@’%’ identified by ‘root’ with grant option;
flush privileges;
为集群中的个别组件创建数据库
drop database cmserver ;
create database cmserver default charset utf8 collate utf8_general_ci;
grant all on cmserver.* to ‘root’@’%’ identified by ‘root’;
#给hive
drop database metastore ;
create database metastore default charset utf8 collate utf8_general_ci;
grant all on metastore.* to ‘root’@’%’ identified by ‘root’;
给CM的activity mornitor drop database amon ;
create database amon default charset utf8 collate utf8_general_ci;
grant all on amon.* to ‘root’@’%’ identified by ‘root’;
给CM的Reports Manager drop database rman ;
create database rman default charset utf8 collate utf8_general_ci;
grant all on rman.* to ‘root’@’%’ identified by ‘root’;
drop database oozie ;
create database oozie default charset utf8 collate utf8_general_ci;
grant all on oozie.* to ‘root’@’%’ identified by ‘root’;
drop database hue ;
create database hue default charset utf8 collate utf8_general_ci;
grant all on hue.* to ‘root’@’%’ identified by ‘root’;
(9)配置Cloudera Manager 的本地yum源
安装httpd服务
yum -y install httpd
systemctl start httpd
systemctl enable httpd.service #设置httpd服务开机自启
配置本地yum源
mkdir -p /var/www/html/cloudera-repos/ 创建文件夹
mv /root/cloudera-repos-6.2.0 /var/www/html/cloudera-repos/cm6 #将cdh manager安装包所在文件夹移入到创建的文件路径下，并重命名为cm6
创建repodata:在重命名的文件夹cm6下运行以下命令
cd /var/www/html/cloudera-repos/cm6/
yum -y install createrepo
createrepo .
生成本地yum源配置
vi /etc/yum.repos.d/cloudera-manager.repo :配置该文件的信息为:
[clouder-manager]
name=Cloudera Manager, Version
baseurl=http://cdh01/cloudera-repos/cm6/ #该路径为存储信息的路径，在页面设置信息时需要
gpgcheck=1
enabled=1
yum clean all
yum makecache
导入 GPG key
rpm --import http://cdh01/cloudera-repos/cm6/RPM-GPG-KEY-cloudera
(10)安装cloudera manager :仅在一台机器安装即可，通过集群设置，可以自动安装其余每台机器的cloudera manager
sudo yum -y install cloudera-manager-daemons
sudo yum -y install cloudera-manager-agent
sudo yum -y install cloudera-manager-server
安装完cloudera manager后/opt/ 下会出现cloudera目录
#**# mv /root/parcel-6.2.0/ /opt/cloudera/parcel-repo/ #将parcel包中的所有文件移动到指定位置 parcel-repo文件夹下
在/opt/cloudera/parcel-repo/文件夹下执行:
sha1sum CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel | awk ‘{ print $1 }’ > CDH-6.2.0-1.cdh6.2.0.p0.967373-el7.parcel.sha
初始化脚本:
/opt/cloudera/cm/schema/scm_prepare_database.sh mysql cmserver root root
打开服务:
systemctl start cloudera-scm-server.service
(11)打开页面进行设置
http://cdh01:7180
每台机器都要进行上述步骤***除了安装MySQL与cloudera manager
()
()
()
()
[clouder-manager]
name=Cloudera Manager, Version
baseurl=http://cdh03/cloudera-repos/cm6/
gpgcheck=1
enabled=1
–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->–>-->
()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()
====================================================================================================================
kafka一键启动脚本
【【无标题】】#!/bin/bash
if [ $# -eq 0 ]
then
echo “please input param: start stop”
else if [1 = s t a r t ] t h e n f o r i i n 1..3 d o e c h o " 1 = start ] then for i in {1..3} do echo " 1=start]thenforiin1..3doecho"{1}ing linux0 i " s s h l i n u x 0 {i}" ssh linux0 i"sshlinux0{i} “source /etc/profile; /opt/apps/kafka_2.11-2.0.0/bin/kafka-server-start.sh -daemon /opt/apps/kafka_2.11-2.0.0/config/server.properties”
done
fi
if [1 = s t o p ] t h e n f o r i i n 1..3 d o s s h l i n u x 0 1 = stop ] then for i in {1..3} do ssh linux0 1=stop]thenforiin1..3dosshlinux0{i} “source /etc/profile; /opt/apps/kafka_2.11-2.0.0/bin/kafka-server-stop.sh”
done
fi
fi