知识的价值不在于占有,而在于使用。这篇文章主要讲述hudi使用cow生成parquet格式用hive查询的问题相关的知识,希望能为你提供帮助。
现象:公司使用flink cdc的时候,往hudi同步的数据是13140条数据,模式用的是cow,生成的parquet格式文件的时候,每upstert一次,用hive使用count查询的时候一下子是之前数据的十倍,131400条了,用presto查询不会出现这种情况。
【hudi使用cow生成parquet格式用hive查询的问题】解决方案:
在使用hive做聚合查询的时候,前面加上以下参数
set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat;
没有加参数之前的查询结果:
select count(1) from ods_sony_hudi_ty_user_vip;
set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat; select count(1) from ods_sony_hudi_ty_user_vip;
推荐阅读
- mysql 高级SQL语句
- #yyds干货盘点#RabbitMQ示例6(远程过程调用RPC)
- 老大说(谁要再用double定义商品金额,就自己收拾东西走)
- 第十一节:Springboot整合log4j2日志
- #过年不停更#HarmonyOS自定义JS组件—灵动的锦鲤
- # yyds干货盘点 # 手把手教你抖音系列视频批量下载器开发
- #yyds干货盘点# Spring 源码三千问同样是AOP代理bean,为什么@Async标记的bean循环依赖时会报错()
- MySQL 数据库SQL 语句的高阶运用
- #yyds干货盘点#nmap(网络探测工具和安全/端口扫描器)