出门莫恨无人随,书中车马多如簇。这篇文章主要讲述数据湖:什么是Hudi相关的知识,希望能为你提供帮助。
什么是HudiApache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,主要目的是高效减少摄取过程中的数据延迟。
Hudi非常轻量级,可以作为lib与Spark、Flink进行集成,Hudi官网:
??https://hudi.apache.org
文章图片
https://hudi.apache.org??
Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
- 快速upsert,可插入索引。
- 以原子方式操作数据并具有回滚功能。
- 写入器和查询之间的快照隔离。
- 用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
- 管理文件大小,使用统计数据布局。
- 行和列数据的异步压缩。
推荐阅读
- [ 深度解剖C语言 ] 关键字 ---- auto register
- 教育业IT运维怎么做(这家机构给出了他们的答案)
- 拼多多api接口,拼多多商品详情api接口,拼多多app商品详情api接口,拼多多sku接口代码分享
- 累了可以躺一躺
- 常用Py3操作Elasticsearch方法
- AutoCAD Electrical电气版 2023软件安装包下载及安装教程
- Open Harmony——包管理子系统包安装模块源码解析
- SpringBoot+Mybatis-Plus整合Sharding-JDBC5.1.1实现单库分表全网最新
- 5.28-6.2博客精彩回顾