hive 排序优缺点
原创
BAT笔试面试
勇哥聊IT
勇哥聊IT
微信号
gh_1f9bb965f478
功能介绍
分享编程心得,共赏技术风景
1、order by
(1)全局排序,所有的数据都会汇集到
一个reduce中进行排序
,并发度有限,
适用于数据量不太大的全局排序。
(2)当开启MR严格模式,即:set hive.mapred.mode=strict 时:
普通表查询必须加limit,分区表查询条件必须对分区字段限制。
2、sort by
只对每个reduce内部进行排序,全局不保证;
可基于sort by产生的有序文件,再进行一次全局归并排序,实现全局排序。
该方案相比order by 排序并发度更高,适用于大数据量排序。
3、distribute by
分区划分、控制map中的输出如何分配到reduce中,保证相同的key划分到同一个reducer中。
通常与sort by结合使用
4、cluster by
当sort by 和distribute by 使用的列相同时,可以用cluster by 替代这两个关键字。
缺点:
只能升序排序,
不能指定规则为asc或desc。
推荐阅读
Spark 有什么优缺点?
Spark RDD有什么特性
hr常问的几道面试题
java什么情况下会抛出OOM
如何实现一个线程池
Java8 有哪些新特性
HashMap 与HashTable有什么区别?
ArrayList 并发版本 CopyOnWriteArrayList
HashMap常考的几个问题
加小编微信
“tickai”
(备注大数据),拉你入
“大数据学习交流群”
-------------
End
-------------
更多面试题请关注
“BAT笔试面试”
预览时标签不可点
微信扫一扫
关注该公众号
继续滑动看下一个
轻触阅读原文
勇哥聊IT
向上滑动看下一个
知道了
微信扫一扫
使用小程序
取消
允许
取消
允许
:
,
。
视频
小程序
赞
,轻点两下取消赞
在看
,轻点两下取消在看
分享
留言