[实例]网站日志分析项目案例
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
http://www.tuicool.com/m/articles/nABN3yI
一、借助Hive进行统计
1.1 准备工作:建立分区表
为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)
hive>CREATE EXTERNAL TABLE techbbs(ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/project/techbbs/cleaned';
建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150425这一天的日志进行分区)
hive>ALTER TABLE techbbs ADD PARTITION(logdate='2015_04_25') LOCATION '/project/techbbs/cleaned/2015_04_25';
【[实例]网站日志分析项目案例】(5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL
为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:
hive>CREATE TABLE techbbs_2015_04_25 AS SELECT '2015_04_25', a.pv, b.reguser, c.ip, d.jumper FROM techbbs_pv_2015_04_25 a JOIN techbbs_reguser_2015_04_25 b ON 1=1 JOIN techbbs_ip_2015_04_25 c ON 1=1 JOIN techbbs_jumper_2015_04_25 d ON 1=1;
文章图片
Paste_Image.png
推荐阅读
- wed服务|3.Nginx网站服务
- Shell|awk学习及实例
- linux|linux awk命令根据分隔符输出,linux下awk命令使用详解(实例)
- 经典到下跪的那些资源网站盘点
- mysql|mysql limit 使用_mysql limit 使用方法实例解析
- Xcode崩溃日志分析工具symbolicatecrash用法
- 一个不错的图片网站的图片抓取--selenium|一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
- kubernetes|智汇华云 | 集群日志动态采集方案
- 前端开发|Vue篇——插槽slot简单实例
- 裸机使用|裸机使用 filebeat 采集裸机上的日志文件,并发到 elasticsearch