Hive中order by，sort by，distribute by，cluster by的区别 Hive

【Hive中order by，sort by，distribute by，cluster by的区别】 1、order by
(1)：order by后面可以有多列进行排序，默认按字典排序。
(2)：order by为全局排序。
(3)：order by需要reduce操作，且只有一个reduce，无法配置(因为多个reduce无法完成全局排序)。
order by操作会受到如下属性的制约：
[java] view plain copy
set hive.mapred.mode=nonstrict; (default value / 默认值)

set hive.mapred.mode=strict;
注：如果在strict模式下使用order by语句，那么必须要在语句中加上limit关键字，因为执行order by的时候只能启动单个reduce，如果排序的结果集过大，那么执行时间会非常漫长。

2、sort by
(1) sort by 为reduce内排序。只保证每个reducer的输出有序，不保证全局有序。
(2) sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

3、distribute by

按照指定的key分发数据，并保证key相同的会被划分到同一个reduce。
如：insert overwrite local directory '/home/hadoop/out' select * from test order by name distribute by length(name);
此方法会根据name的长度划分到不同的reduce中，最终输出到不同的文件中。

4、cluster by
cluster bykey = distribute by key sort by key desc，是一个简写。cluster by只能降序排序。

Hive中order by，sort by，distribute by，cluster by的区别

推荐阅读

政策性银行员工是事业编吗政策性银行有哪些

为什么喝茶容易失眠晚上喝黑茶会失眠吗

塔莱辛魔像在哪里塔莱辛魔像位置分享

hp25r|全新升级，照亮前方！Fenix HP25R V2.0头灯体验

茶叶泡久了变红为什么

小米|iPhone13再见！没有快充高刷也配称为旗舰华为小米不香吗！

丰年虾孵化后能活多久丰年虾孵化后能活多久

激萌如何变老，faceu激萌变老功能怎么玩

ntko控件下载,NTKO大文件上传控件

胃痛推拿有效果吗

香菇胡萝卜肉馅要不要炒

用ps制作个性签名我来分享PS制作粉色个性签名的详细操作

foxmail如何设置阅读收条 Foxmail设置阅读收条的相关操作步骤

不用实名认证的5v5游戏，腾讯哪些游戏不需要实名认证的

鸡电压力锅如何用电压锅煲鸡，用电压力锅做鸡的做法

电热水器漏电开关安装示意图如何防止电热水器漏电，热水器漏电会电死人吗

新型冠状病手抄报怎么画

荣耀80 GT取消8G版本售价3299元支持24期免息分期

05|05 | 行为金融学（你能真正了解一家公司吗（信息收集阶段的认知偏差））

怎么去除杯盖的异味怎么去除杯盖的胶味