（二）Hive运行机制与使用（二）Hive运行机制与使用

hive介绍
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
hive的运行机制
图示

文章图片
image.png
假设我在hive命令行客户端使用创建了一个数据库（database）myhive，接着又在该数据库中创建了一张表emp。

create database myhive; use myhive; create table emp(id int,name string);

那么hive会将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
hive是基于hadoop的，所以数据库和表均表现在hdfs上的目录，数据信息当然也是存储在hdfs上。
对于上面的库和表来说，会在hdfs上创建/user/hive/warehouse/myhive.db这样的目录结构，而表的信息则可以自己上传个文件比如图中的emp.data到/user/hive/warehouse/myhive.db目录下。那么就可以写sql进行查询了（注：写查询语句写的是myhive这张表不删emp.data，如select * from myhive,但是查询到的是emp.data中的信息，两者结合可以理解为传统数据库的某张表），而这些元数据信息都会存储到外部的数据库中（如mysql，当然也可以使用内嵌的derby，不推荐使用derby毕竟是内嵌的不能共享信息）。
然后我再写个查询语句

select id,name from emp where id>2 order by id desc;

那么是怎么执行的呢？查询语句交给hive，hive利用解析器、优化器等（图中表示Compiler）,调用mapreduce模板，形成计划，生成的查询计划存储在 HDFS 中，随后由Mapreduce程序调用，提交给job放在Yarn上运行。
hive与mapreduce关系

文章图片
image.png hive的数据存储 1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。
3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径
普通表: 删除表后, hdfs上的文件都删了
External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中
理论总让人头昏，下面介绍hive的初步使用上面的自然就明白了。
hive的使用虽然可以使用hive与shell交互的方式启动hive

[root@mini1 ~]# cd apps/hive/bin [root@mini1 bin]# ll 总用量 32 -rwxr-xr-x. 1 root root 1031 4月30 2015 beeline drwxr-xr-x. 3 root root 4096 10月 17 12:38 ext -rwxr-xr-x. 1 root root 7844 5月8 2015 hive -rwxr-xr-x. 1 root root 1900 4月30 2015 hive-config.sh -rwxr-xr-x. 1 root root885 4月30 2015 hiveserver2 -rwxr-xr-x. 1 root root832 4月30 2015 metatool -rwxr-xr-x. 1 root root884 4月30 2015 schematool [root@mini1 bin]# ./hive hive>

但是界面并不好看，而hive也可以发布为服务（Hive thrift服务），然后可以使用hive自带的beeline去连接。如下
窗口1，开启服务

[root@hadoop01 bin]# ./hiveserver2 18/09/24 23:37:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 18/09/24 23:37:47 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.user does not exist 18/09/24 23:37:47 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.password does not exist

窗口2，作为客户端连接

[root@hadoop01 bin]# ./beeline Beeline version 1.2.1 by Apache Hive beeline> !connect jdbc:hive2://localhost:10000 Connecting to jdbc:hive2://localhost:10000 Enter username for jdbc:hive2://localhost:10000: root Enter password for jdbc:hive2://localhost:10000: **** Connected to: Apache Hive (version 1.2.1) Driver: Hive JDBC (version 1.2.1) Transaction isolation: TRANSACTION_REPEATABLE_READ 0: jdbc:hive2://localhost:10000>

下面进行简单使用，感觉下使用sql的舒适吧 1、查看数据库

0: jdbc:hive2://localhost:10000> show databases; +----------------+--+ | database_name| +----------------+--+ | default| +----------------+--+ 1 row selected (1.456 seconds)

2、创建并使用数据库，查看表

0: jdbc:hive2://localhost:10000> show databases; +----------------+--+ | database_name| +----------------+--+ | default| +----------------+--+ 1 row selected (2.415 seconds) 0: jdbc:hive2://localhost:10000> create database myhive; No rows affected (0.361 seconds) 0: jdbc:hive2://localhost:10000> show databases; +----------------+--+ | database_name| +----------------+--+ | default| | myhive| +----------------+--+ 2 rows selected (0.101 seconds) 0: jdbc:hive2://localhost:10000> use myhive; No rows affected (0.073 seconds) 0: jdbc:hive2://localhost:10000> show tables; +-----------+--+ | tab_name| +-----------+--+ +-----------+--+ No rows selected (0.119 seconds) 0: jdbc:hive2://localhost:10000> show databases; +----------------+--+ | database_name| +----------------+--+ | default| | myhive| +----------------+--+ 2 rows selected (0.074 seconds) 0: jdbc:hive2://localhost:10000> create table emp123(id int,name string); No rows affected (0.54 seconds) 0: jdbc:hive2://localhost:10000> show tables; +-----------+--+ | tab_name| +-----------+--+ | emp123| +-----------+--+ 1 row selected (0.095 seconds)

文章图片
image.png

0: jdbc:hive2://localhost:10000> create table emp000(id int,name string) row format delimited fields terminated by ','; No rows affected (0.18 seconds)

[root@hadoop01 ~]# hadoop fs -put hivedemo.data /user/hive/warehouse/myhive.db/emp000

0: jdbc:hive2://localhost:10000> select * from emp000; +------------+--------------+--+ | emp000.id| emp000.name| +------------+--------------+--+ | 1| zhangsan| | 2| lisi| | 3| wangwu| | 4| furong| | 5| fengjie| +------------+--------------+--+ 5 rows selected (0.815 seconds) 0: jdbc:hive2://localhost:10000>

3、加载文件信息到表中
前面使用了hadoop命令将文件上传到了表对应的目录下，但是也可以在命令行下直接导入文件信息

[root@hadoop01 ~]# cat hivedemo2.txt 1,zhang 2,li 3,wang 4,fu 5,feng

0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo2.txt' into table emp000; INFO: Loading data to table myhive.emp000 from file:/root/hivedemo2.txt INFO: Table myhive.emp000 stats: [numFiles=2, totalSize=78] No rows affected (0.615 seconds)

0: jdbc:hive2://localhost:10000> select * from emp000; +------------+--------------+--+ | emp000.id| emp000.name| +------------+--------------+--+ | 1| zhangsan| | 2| lisi| | 3| wangwu| | 4| furong| | 5| fengjie| | 1| zhang| | 2| li| | 3| wang| | 4| fu| | 5| feng| +------------+--------------+--+ 10 rows selected (0.177 seconds)

4、表分区，分区字段为school，导入数据到2个不同的分区中

0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo.data' into table stu partition(school='neu'); INFO: Loading data to table myhive.stu partition (school=neu) from file:/root/hivedemo.data INFO: Partition myhive.stu{school=neu} stats: [numFiles=1, numRows=0, totalSize=46, rawDataSize=0] No rows affected (0.635 seconds) 0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo2.txt' into table stu partition(school='HIT'); INFO: Loading data to table myhive.stu partition (school=HIT) from file:/root/hivedemo2.txt INFO: Partition myhive.stu{school=HIT} stats: [numFiles=1, numRows=0, totalSize=32, rawDataSize=0] No rows affected (0.557 seconds) 0: jdbc:hive2://localhost:10000> select * from stu; +---------+-----------+-------------+--+ | stu.id| stu.name| stu.school| +---------+-----------+-------------+--+ | 1| zhang| HIT| | 2| li| HIT| | 3| wang| HIT| | 4| fu| HIT| | 5| feng| HIT| | 1| zhangsan| neu| | 2| lisi| neu| | 3| wangwu| neu| | 4| furong| neu| | 5| fengjie| neu| +---------+-----------+-------------+--+ 10 rows selected (0.207 seconds) 0: jdbc:hive2://localhost:10000> alter table stu add partition (school='Tokyo'); No rows affected (0.165 seconds) 0: jdbc:hive2://localhost:10000> select * from stu; +---------+-----------+-------------+--+ | stu.id| stu.name| stu.school| +---------+-----------+-------------+--+ | 1| zhang| HIT| | 2| li| HIT| | 3| wang| HIT| | 4| fu| HIT| | 5| feng| HIT| | 1| zhangsan| neu| | 2| lisi| neu| | 3| wangwu| neu| | 4| furong| neu| | 5| fengjie| neu| +---------+-----------+-------------+--+ 10 rows selected (0.162 seconds)