懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）大数据数据湖flink

实时小白一枚，在线求更加强大和方便的工具

需求对 hudi 进行 upsert 压测，简单的链路为 flink 消费 kafka 直接灌入 hudi 表，需要构造 10 亿条数据，可控制 insert 和 update 的配比
YCSB 调研

引言：熟悉 hudi 的伙伴应该了解到，recordKey 类似于主键是 hudi 的一级公民，通过 recordKey 可以快速定位到需要 update 的数据文件而不用重写所在分区下的所有数据文件。类比于 key-value 的存储，第一时间想到了 HBase，就从 HBase 伙伴了解到了压力测试工具：YCSB

Yahoo! Cloud Serving Benchmark : The goal of the YCSB project is to develop a framework and common set of workloads for evaluating the performance of different “key-value” and “cloud” serving stores
雅虎提供的客户端测试框架，用于评估不同的 key-value 存储和云服务的性能。根据配置文件，自动化构造数据对 db 进行 insert、update、delete、scan、read 压力测试。而本文重点关注构造数据部分
功能速看 两种模式

load : 数据初始化，所有的 operator 都是 insert
run : 客户端运行压测，operator 包括 read、scan、insert、update、delete（良好的设计方便后期扩展 kafka db）

关键配置

writeallfields : 对于 update 操作对应生成的数据是否包含所有字段。根据选择可以灵活配置 hudi 的 PayLoad
insertorder : 对生成的 key 是以非 hash 方式生成，对生成 update 的 key 非常重要
requestdistribution : update 数据的 key 的分布方式，后面使用 sequential ，自增 id 的方式
threadcount : 并发数，启动多少个线程并发生成数据
fieldcount : 生成的列个数（默认名称 field0, field1...）
zeropadding : 占位符个数，比如首个 key 是 user1，如果设置个数为5，那么 key 就是 user00001

案例 case 所有测试的基本配置如下 workload：

workload=site.ycsb.workloads.CoreWorkload readallfields=true insertorder=ordered requestdistribution=sequential threadcount=1 writeallfields=true fieldcount=7 zeropadding=10

case 1：load 模式

bin/ycsb.sh load basic \# basic 是默认 db，将结果打印到终端，可选 redis、mongodb、hbase 等 -P ./workload \# 指向基本配置文件 -p static_col.dt=20220101 \# 扩展的字段，暂时不用考虑 -p static_col.ht=02 \# 扩展的字段，暂时不用考虑 -p insertstart=0 \# key 的起始 id，同上面的 workload 配置，这里优先级最高 -p insertcount=2# 总共插入两条# 结果如下，写入两条数据，分别是 INSERT op，key 为 user0000000000 和 user0000000001，从 0 开始自增到 1，然后是统计数据，吞吐量/s，耗时等 Loading workload... Starting test. ***************** properties ***************** "writeallfields"="true" "fieldcount"="7" "insertcount"="2" "threadcount"="1" "readallfields"="true" "dotransactions"="false" "static_col.ht"="02" "requestdistribution"="sequential" "workload"="site.ycsb.workloads.CoreWorkload" "zeropadding"="10" "insertstart"="0" "static_col.dt"="20220101" "insertorder"="ordered" "db"="site.ycsb.BasicDB" ********************************************** DBWrapper: report latency for each error is false and specific error codes to track for latency are: [] INSERT usertable user0000000000 [ field1=2-(4]m9+n7G{; [s:C-350=F36@/=Om8@)5O1$A38&z&#"4Mg+02Rm>'b7Nq; V=85~/.(.Ak>(f'*,524"*&4 z field0=,X%=_m<>&5@1+]=9F)7Qq7'<':49':51b65>.; *85h Es#_q0'd; S7$S)0Fe9+f?3t5[+9&r @i'>n/@q35l6Qy&G/:Jw/N{5Eo? field6=3!>5O-*364,*9R!1T#?6:![o7Vw+E35[w''.; 000Go<[?43>?$40Nu7U; $Mc=\k2*f!Ps&W/-N! ),=O)98d:X99&x$M/59z#:~> field3=:E? &x6"($',(2p3Uy-""4; r-Bm>Q1*>9:."H1$_y*+|+2>1Ms+Zy/0,5S#$9<$Bo; ; $1?~1M'%D5)#f>Ta/$6 [i5=0<)f3]{*< ?M-05(=Dc?]-,Ue+I7!>f?N5)\y6 field5=; X=%/~7-x&^q.880 t))~.V=0Ri23x; Hc'_a8E1U!94h0La>64"024-("C3%C%3*>=Ke; ; <<9n-Ma2$.(Dw+O-<]!4706?z'J#6K%9@u/2l+-(-841$-7&<-t>*8$'f>F#8\u>Fu3%x2-r#Tk3F/59p"&29B9 N}5_w'Fo>B5S; 0,C/)*$7V5(A)&0&9=d(#(-0z#+f+G#.=2$Po9%( >f,Bg/=<-+ 0M/0)$8 field6=6Aw2/`0+p>%.6Bo/I{:1.,6`/N7)92-*61P!3"0-_w$E.Sy0/`68z,:l6\7; ,2 J!4@s3=8>Aq>=z:Ni/=f4R+4Gk$Ng"[k; ".0 field3=,M% Hw%W6U=/\y'D}&?&$T-6<<9; ,=*p3]#.Yo6O'3"&1!&=U9=:l Wg&9`%$|; =4)&b>O&9<50>6G}?I5!$n&=f%Q{*^!$W{> field2=9G-)1p'Sg&; 3!h7Fq4Qw:C1'Rw:; $'Gy64,>)~; Is8<2<&`<\y*; l?H5)R{&)85Uq=Nm>%`=[i'Ey9J{+]=:P#%[)-2~&Lc; Q+0 field5=+#40^q'.z?G; +(|'Gs.Wy/Iq; :"( l75> G97 ,4:h:S55T7#9(,%:$9(5V-))z#J+1"j&9x48~7%f%Wo>@-$Py7%z,58-; $$Xo2 field4=?!r*Hk.Lc'^; &F3-[q$2t#<""..(.<2)$,H?:0<$-")Wu2Q93T; _=82v'&~?=&0V!1 l) &



 
 case 2：run 模式

 
  构造 upsert 数据方式，测试的方式是先 load，再 run，比如 case 1 load 了 user0000000000 和 user0000000001 两个 key 的数据，在 run 模式中，重复写入这两条作为更新数据，并且也同时 insert 新 key 的数据从 2 开始

 注意：下面的 case 是上自增序列下的时候调研出来的参数含义，并不代表一定适合其它的配置

 
  
 bin/ycsb.sh run basic \# 使用 run 模式，包括 insert、update、scan 等
-P ./workload \# 指向基本配置文件
-p operationcount=4 \# insert + update + scan 等总共触发 4 次
-p recordcount=2 \# insert key 的起始 id 为 2
-p insertstart=0 \# update key 的起始 id 为 0 （为 case 1 已经初始化的范围）
-p insertcount=2 \# update key 的最大值不超过 2，即为 0 和 1
-p readproportion=0 \# 没有读操作
-p updateproportion=0.5 \# 更新操作占 50%
-p scanproportion=0 \# 没有扫描操作
-p insertproportion=0.5# 插入操作占 50%# 结果如下
# insert 和 update 产生的最终条数是近似 1:1，不是严格的
# update 数据的 key 从 user0000000000 ~ user0000000001
# insert 数据的 key 从 user0000000002 ~ user0000000003
Loading workload...
Starting test.
***************** properties *****************
"insertorder"="ordered"
"updateproportion"="0.5"
"scanproportion"="0"
"writeallfields"="true"
"threadcount"="1"
"operationcount"="2"
"zeropadding"="10"
"readallfields"="true"
"requestdistribution"="sequential"
"dotransactions"="true"
"insertproportion"="0.5"
"insertstart"="0"
"workload"="site.ycsb.workloads.CoreWorkload"
"insertcount"="1"
"readproportion"="0"
"fieldcount"="7"
"recordcount"="1"
"db"="site.ycsb.BasicDB"
**********************************************
DBWrapper: report latency for each error is false and specific error codes to track for latency are: []
UPDATE usertable user0000000000 [ field1=(G5)P-.;
~#A3%.`"P!/&j7O;
?+ )8<42n?Qc3X{2Ws:,:0F3Q5!^a Uk'T9*V}?!vC{57z2@)=3n"L7*_5(0b-1"!De.-n20t,U%5 : Ig'Sm(Rc+E?:(b2B}%P94V$3z.4j8)v:Ke,%2,Uy9M192d-z:969 field6=*>N/44`&F)8;
2!7l87b:]'8?>%Es43z"$r!'l+>t!7t+<`6_;
000=?t+K&% field2=6T?=_s')b?Ng!4z/V{,$t&H?=?$=S12+$!I19%<97` &8(!|/*j#Ja0O3V1.U)42t:+,! field5=!((8Ak71>0&h!2j>2p&(|"Tk(G)!Ug'I7<#p4/2*+Ec#(H{.,0!"~50d#V):Bg'Ua774,&b)C+51.!(|>8b'&`*;
b53 %R"V#$Kw';
~6 ]
INSERT usertable user0000000001 [ field1=6^e.Q5/<&1-"3Qg/10$Fe3,.)W19Ho'W{&>t#4b3=p'!~?9l/6* >02_s2R#.3b/T16I;
%=8:;
d3N14:l>Ym3%$(Jo<5G942(\q6Tw>P?*,&t=-$1S)x#Ia(Eu*9~)8*1 field3==8h*C=>Va2:<1',(Z=2Z99;
.5=r**j3Ra"&.'W1)M [a#/4=Z+-Py91x#Yg'8v#S;
9S+9Mm3H{3@k9Q?5.,*2*-\9("8$"f,\c? field2=3Gm"7>3;
*=Xs>6p*Di':t/Ny.9<0Ca"Sk&%b2O-1Nw<5&0Xq3.6%])7Wy+<6:J{?# 7'&(),?Mi'\g/">8])1<~.Is0Gw73<27n3 field5=$;
>=@;
71t&]1?Ao#X9C#5)b>@u#]/8920Y/-P=1Xa94:-Lk7A-%Ey3_)$;
(. >0$4%!<$9>/I#$Ra:2p;
5>6!h#X=>Vg7L9< field4=2*6%,`$^99,.7Q58I98&r"(&4S?52:5%l.^}5F+)"4/R)1X(Xu#Hm>'n*V#5Um67.:Z5):b&%p*3t$S+9/~ 60%.(;
<`&Ew(S5$ ]
[OVERALL], RunTime(ms), 9
[OVERALL], Throughput(ops/sec), 222.22222222222223
[TOTAL_GCS_PS_Scavenge], Count, 0
[TOTAL_GC_TIME_PS_Scavenge], Time(ms), 0
[TOTAL_GC_TIME_%_PS_Scavenge], Time(%), 0.0
[TOTAL_GCS_PS_MarkSweep], Count, 0
[TOTAL_GC_TIME_PS_MarkSweep], Time(ms), 0
[TOTAL_GC_TIME_%_PS_MarkSweep], Time(%), 0.0
[TOTAL_GCs], Count, 0
[TOTAL_GC_TIME], Time(ms), 0
[TOTAL_GC_TIME_%], Time(%), 0.0
[CLEANUP], Operations, 1
[CLEANUP], AverageLatency(us), 1.0
[CLEANUP], MinLatency(us), 1
[CLEANUP], MaxLatency(us), 1
[CLEANUP], 95thPercentileLatency(us), 1
[CLEANUP], 99thPercentileLatency(us), 1
[UPDATE], Operations, 1
[UPDATE], AverageLatency(us), 526.0
[UPDATE], MinLatency(us), 526
[UPDATE], MaxLatency(us), 526
[UPDATE], 95thPercentileLatency(us), 526
[UPDATE], 99thPercentileLatency(us), 526
[UPDATE], Return=OK, 1
[INSERT], Operations, 1
[INSERT], AverageLatency(us), 177.0
[INSERT], MinLatency(us), 177
[INSERT], MaxLatency(us), 177
[INSERT], 95thPercentileLatency(us), 177
[INSERT], 99thPercentileLatency(us), 177
[INSERT], Return=OK, 1


 
 总结 
 功能上，把 insert 操作作为 insert 数据，update 操作用之前写入过的 key 作为主键，就可以达到需要的效果，并且使用自增 id 的方式，可以不用缓存之前写入过的 key。并且可以灵活的设置 insert 和 update 的配比

 
 但是自增 id 也有缺点，在并发条件下，自增 id 的并发问题就会导致其压测能力不会随着线程数增加而等比上升。所以如果没有这种需求，可以设置 hash key 而不是自增 key

 
 完结但不全完结 
 懒癌患者比较难从 0 到 1 写个测试工具，做完以上调研，数据是有了，下篇，将介绍如何基于 ycsb 扩展 db，也不算 db，将魔爪伸向消息中间件 kafka，回到最初的需求（其实也比较简单）

 
 【懒癌患者基于 YCSB 构造 hudi upsert 数据集（上篇）】欢迎关注公众号：
 

文章图片 




		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  感冒可以戴隐形眼镜吗？ 
                
                   
                
              
            

                  
              
                  拼多多隐藏优惠券在哪里（拼多多隐藏优惠券怎么领） 
                
                   
                
              
            

                  
              
                  如何在手机上使用云服务器的流量？ 手机怎么用云服务器的流量 
                
                   
                
              
            

                  
              
                  使用log4j|使用log4j MDC实现日志追踪 
                
                   
                
              
            

                  
              
                  贵宾犬价格 
                
                   
                
              
            

                  
              
                  盒子刷安卓,机顶盒自动重启刷机需要用到什么东西? 
                
                   
                
              
            

                  
              
                  网球场上的那些规则你真的了解吗？ 网球的规则 
                
                   
                
              
            

                  
              
                  商品保管的意义和原则是什么 
                
                   
                
              
            

                  
              
                  不要教育孩子应该怎么做 不想教育孩子怎么办 
                
                   
                
              
            

                  
              
                  空调开睡眠模式半夜被热醒？ 空调睡眠模式是什么意思 
                
                   
                
              
            

                  
              
                  鸽子粥的功效和作用 
                
                   
                
              
            

                  
              
                  x60|为什么 2021 年的旗舰手机都需要满足这些关键词？ 
                
                   
                
              
            

                  
              
                  抖音怎么不让作品在同城显示 抖音作品怎么能不在同城显示 
                
                   
                
              
            

                  
              
                  怎么上传优酷视频？优酷视频上传教程 
                
                   
                
              
            

                  
              
                  怎么延长蜂蜜柠檬水的保质期 
                
                   
                
              
            

                  
              
                  世界无烟日校园宣传标语大全 学校无烟日宣传标语 
                
                   
                
              
            

                  
              
                  网友：2020年度高新区人才引进补贴逾半年未发放！ 
                
                   
                
              
            

                  
              
                  昆虫记中萤火虫的习性 
                
                   
                
              
            

                  
              
                  Excel单元格怎么使用斜线一分为二？ 
                
                   
                
              
            

                  
              
                  电脑不读U盘怎么办 
                
                   
                
              
            

          

opencv|基于深度学习的口罩识别与检测PyTorch实现 
 遥感图像处理|概述—基于机载LiDAR点云数据的建筑物轮廓提取 
 基于UEFI引导的多操作系统和谐共存(借助rEFInd) 
 Jeecgboot-Vue3|Jeecgboot-Vue3 v1.0.0 版本正式发布，基于代码生成器的企业级低代码平台 
 字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化 
 数据结构和算法基于python语言_数据结构与算法（Python语言描述） 
 yolo相关项目|基于人脸识别、姿态检测、距离估计的看电视姿态检测 
 C|梦回童年——基于C语言实现三子棋小游戏 
 基于Docker实现Redis主从+哨兵搭建的示例实践 
 matlab|matlab 双目立体视觉,基于MATLAB与OpenCV相结合的双目立体视觉测距系统