DataWorks搬站方案(Azkaban作业迁移至DataWorks)

简介:DataWorks迁移助手提供任务搬站功能,支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。
DataWorks迁移助手提供任务搬站功能,支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。
支持迁移的Azkaban版本 支持全部版本的Azkaban迁移。
整体迁移流程 迁移助手支持开源工作流调度引擎到DataWorks体系的大数据开发任务迁移的基本流程如下图所示。
DataWorks搬站方案(Azkaban作业迁移至DataWorks)
文章图片

针对不同的开源调度引擎,DataWorks迁移助手会出一个相关的任务导出方案。
整体迁移流程为:通过迁移助手调度引擎作业导出能力,将开源调度引擎中的作业导出;再将作业导出包上传至迁移助手中,通过任务类型映射,将映射后的作业导入至DataWorks中。作业导入时可设置将任务转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。
Azkaban作业导出 Azkaban工具本身具备导出工作流的能力,有自己的Web控制台,如下图所示:
DataWorks搬站方案(Azkaban作业迁移至DataWorks)
文章图片

Azkaban界面支持直接Download某个Flow。Flow的导出流程:
DataWorks搬站方案(Azkaban作业迁移至DataWorks)
文章图片

操作步骤:
1.进入Project页面
2.点击Flows,会列出Project下面所有的工作流(Flow)
3.点击Download即可下载Project的导出文件
Azkaban导出包格式原生Azkaban即可,导出包Zip文件内部为Azakaban的某个Project的所有任务(Job)和关系信息。
Azkaban作业导入 拿到了开源调度引擎的导出任务包后,用户可以拿这个zip包到迁移助手的迁移助手->任务上云->调度引擎作业导入页面上传导入包进行包分析。
DataWorks搬站方案(Azkaban作业迁移至DataWorks)
文章图片

导入包分析成功后点击确认,进入导入任务设置页面,页面中会展示分析出来的调度任务信息。
开源调度导入设置 用户可以点击高级设置,设置Azkaban任务与DataWorks任务的转换关系。不同的开源调度引擎,在高级设置里面的设置界面基本一致,如下图:
DataWorks搬站方案(Azkaban作业迁移至DataWorks)
文章图片

【DataWorks搬站方案(Azkaban作业迁移至DataWorks)】高级设置项介绍:
  • sparkt-submit转换为:导入过程会去分析用户的任务是不是sparkt-submit任务,如果是的话,会将spark-submit任务转换为对应的DataWorks任务类型,比如说:ODPS\_SPARK/EMR\_SPARK/CDH\_SPARK等
  • 命令行 SQL任务转换为:开源引擎很多任务类型是命令行运行SQL,比如说hive -e, beeline -e, impala-shell等等,迁移助手会根据用户选择的目标类型做对应的转换。比如可以转换成ODPS\_SQL, EMR\_HIVE, EMR\_IMPALA, EMR\_PRESTO, CDH\_HIVE, CDH\_PRESTO, CDH\_IMPALA等等
  • 目标计算引擎类型:这个主要是影响的是Sqoop同步的目的端的数据写入配置。我们会默认将sqoop命令转换为数据集成任务。计算引擎类型决定了数据集成任务的目的端数据源使用哪个计算引擎的project。
  • Shell类型转换为:SHELL类型的节点在Dataworks根据不同计算引擎会有很多种,比如EMR\_SHELL,CDH\_SHELL,DataWorks自己的Shell节点等等。
  • 未知任务转换为:对目前迁移助手无法处理的任务,我们默认用一个任务类型去对应,用户可以选择SHELL或者虚节点VIRTUAL
  • SQL节点转换为:DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比如 EMR\_HIVE,EMR\_IMPALA、EMR\_PRESTO,CDH\_HIVE,CDH\_IMPALA,CDH\_PRESTO,ODPS\_SQL,EMR\_SPARK\_SQL,CDH\_SPARK\_SQL等,用户可以选择转换为哪种任务类型。
注意:这些导入映射的转换值是动态变化的,和当前项目空间绑定的计算引擎有关,转换关系如下。
导入至DataWorks + MaxCompute
设置项 可选值
sparkt-submit转换为 ODPS_SPARK
命令行 SQL任务转换为 ODPS_SQL、ODPS_SPARK_SQL
目标计算引擎类型 ODPS
Shell类型转换为 DIDE_SHELL
未知任务转换为 DIDE_SHELL、VIRTUAL
SQL节点转换为 ODPS_SQL、ODPS_SPARK_SQL
### 导入至DataWorks + EMR
设置项 可选值
sparkt-submit转换为 EMR_SPARK
命令行 SQL任务转换为 EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
目标计算引擎类型 EMR
Shell类型转换为 DIDE_SHELL, EMR_SHELL
未知任务转换为 DIDE_SHELL、VIRTUAL
SQL节点转换为 EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
### 导入至DataWorks + CDH
设置项 可选值
sparkt-submit转换为 CDH_SPARK
命令行 SQL任务转换为 CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
目标计算引擎类型 CDH
Shell类型转换为 DIDE_SHELL
未知任务转换为 DIDE_SHELL、VIRTUAL
SQL节点转换为 CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
## 执行导入 设置完映射关系后,点击开始导入即可。导入完成后,请进入数据开发中查看导入结果。 ## 数据迁移 大数据集群上的数据迁移,可参考: DataWorks数据集成或 MMA。 任务上云详细文档: https://help.aliyun.com/document\_detail/181296.html > 版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

    推荐阅读