大数据 ETL 处理工具 Kettle 的核心概念大数据

在实际工作中，可以使用 Kettle 的图形化的方式定义复杂的 ETL 程序和工作流，如下图就是通过一系列的转换（Transformation）完成一个作业（Job）流程。

文章图片

Kettle 核心概念

文章图片

转换
转换（Transaformation）是 ETL 中最主要的部分，它处理抽取、转换、加载各种对数据行的操作。转换包含一个或多个步骤（Step），如上图中的「CSV 文件输入」、「Excel输出」步骤，还包括过滤数据行、数据清洗、数据去重或将数据加载到数据库等等。转换里的步骤通过跳（hop）来进行连接，跳定义一个单向通道，允许数据从一个步骤向另一个步骤流动。
步骤（Step）
Kettle 里面的，Step 步骤是转换里的基本的组成部分，上篇快速体验的案例中就存在两个步骤，「CSV文件输入」和「Excel输出」，一个步骤有如下几个关键特性：
步骤需要有一个名字，这个名字在转换范围内唯一。
每个步骤都会读、写数据行（唯一例外是「生成记录」步骤，该步骤只写数据）。
步骤将数据写到与之相连的一个或多个输出跳，再传送到跳的另一端的步骤。
大多数的步骤都可以有多个输出跳，当有多个输出时，会弹出如下图所示的警告进行选择分发还是复制。一个步骤的数据发送可以被设置为分发和复制，分发是目标步骤轮流接收记录，复制是所有的记录被同时发送到所有的目标步骤。
跳（Hop）
Kettle 里面的，跳（Hop），跳就是步骤之间带箭头的连线，跳定义了步骤之间的数据通路，如上图。在 Kettle里，数据的单位是行，数据流就是数据行从一个步骤到另一个步骤的移动，跳是两个步骤之间的被称之为行集的数据行缓存（行集的大小可以在转换的设置里定义，如下图）。当行集满了，向行集写数据的步骤将停止写入，直到行集里又有了空间；当行集空了，从行集读取数据的步骤停止读取，直到行集里又有可读的数据行。大数据培训
行集设置
数据行
在 Kettle 里，数据的单位是行，数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合，字段包含下面几种数据类型。
String：字符类型数据
Number:双精度浮点数
Integer：带符号长整型（64位）
BigNumber：任意精度数据
Date：带毫秒精度的日期时间值
Boolean：取值为 true 和 false 的布尔值
Binary：二进制字段可以包含图像、声音、视频及其他类型的二进制数据
image-20210708013817323
【大数据 ETL 处理工具 Kettle 的核心概念】同时，每个步骤在输出数据行时都有对字段的描述，这种描述就是数据行的元数据。通常包含下面一些信息：
名称：行里的字段名应用是唯一的
数据类型：字段的数据类型
格式：数据显示的方式，如 Integer 的#、0.00
长度：字符串的长度或者 BigNumber 类型的长度
精度：BigNumber 数据类型的十进制精度
货币符号：￥
小数点符号：十进制数据的小数点格式
分组符号：数值类型数据的分组符号
步骤是并行的
这种基于行集缓存的规则（前面「跳（Hop）」节提到），允许每个步骤都是由一个独立的线程运行，这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理（设置合理的行集大小）。在数据仓库建设过程中，经常要处理大量数据，所以这种并发低消耗内存的方式也是 ETL 工具的核心需求。
对于 Kettle 的转换，所有步骤都以并发方式执行，即：当转换启动后，所有步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输入跳，直到输入跳里不再有数据，就中止步骤的运行。当所有的步骤都中止了，整个转换就中止了。
总结
Kettle 通过一系列的转换（Transformation）完成一个作业（Job）流程
通过了解 Kettle 的核心概念，得知 Kettle 是通过「跳（Hop）」将数据流从一个步骤到另一个步骤的移动，每个步骤都是由一个独立的线程运行，这样提高并发程度，但相比 Hadoop 生态移动计算模型更加昂贵
Kettle 本身由 Java 开发，需要配置合理的 JVM 参数。

大数据 ETL 处理工具 Kettle 的核心概念

推荐阅读

2 春天吃什么长得高

6.插入排序(改进版)

少数民族的风俗和节日有哪些，少数民族有那些传统节日有哪些

什么人不适合吃丝瓜

双核浏览器，推荐款双核浏览器

失业保险领取条件及标准2023 2023年失业保险金领取多少钱一个月？

湛庐书单湛庐文化

有哪些不带“爱”字,却能表达浓浓爱意的句子？

2019-04-14

玻璃纤维硅胶盘根_低生物持久性陶瓷纤维带

资生堂有几款淡斑精华资生堂哪款抗皱抗衰老

如何使用啄木鸟图片下载器啄木鸟图片下载器的使用方法

程序员分类级别，程序员等级是怎么划分的

我那压箱底的一百块钱

2018-07-25金刚书院《一万小时定律》王海娟瑜伽共休第76天

手机|小米、荣耀、一加、真我各手机品牌最新双十一战报速览，小米破150亿

医院|晚新闻｜医院招揽无病人员住院骗保｜患者家属举报医生推销人血白蛋白

macos下obsidian vim 模式长按j，无法连续向下

Win7如何打开系统保护？Win7打开系统保护的方法

北京种植牙医保报销吗? 北京种植牙医保报销吗多少钱