HIVE 统计函数一些小技巧

[当你有些统计需求实现不了时,可以看看这些技巧哦~]
sum 函数加 over 关键字:

用法:sum(count(1)) over(partition by talent_account_type order by create_date rows between unbounded preceding and current row) sys_total

描述:根据 talen_account_type 维度来分组统计总和,按 create_date 单调递增方式来累加
group by 的扩展妙用:
在最后增加 with CUBE 可以根据多维度几几组合维度来统计,可以统计某一个维度的所有数据。通常可以用 coalesce(create_date,'所有日期') 来处理 null 的字段,以增加可读性。
动态创建一个任意维度+日期值的表:
用法: select time, talent_type from (select date_add(get_date(-30),a.rk) time,1 talent_type from(select row_number()over(order by 1) as rk from vipdw.dw_vccp_media_ds limit 30) a) union (select date_add(get_date(-30),a.rk) time,2 talent_type from(select row_number()over(order by 1) as rk from vipdw.dw_vccp_media_ds limit 30) a)

(随便 from 一个表就行,原理大概是利用查出来30条数据,然后动态再拼多一个日期加维度的字段,然后只用这两个字段)
Ps:通常可以用于创建该表后,再用这个表 left join 一些数据,配合 IFNULL(xxx, 0) 函数,
可以达到统计有些日期没数据的统计表也能连着日期来展示
CONCAT 函数:
用法:CONCAT(string A, string B…)

描述:可以用于做字符串拼接
case when 关键字:
用法:case when b.id IS NULL then '是' else '否' end as fans_top_is_new

描述:Case when 等于程序语言中的 if..else ,可以使用到非常多的关键字或方法后面,也可以独立使用,如:
「count( case when media.quality = 3 then 1 end ) as media_essence_col」 等等方式,可以动态做到 select 中的筛选或赋值
row_number() 函数:
用法:row_number()over(order by a.fans_count desc )

【HIVE 统计函数一些小技巧】描述:可以用于根据某个规则去做序号展示,例如上述含义就是根据 fans_count 倒序得出排名序号

    推荐阅读