古人学问无遗力,少壮工夫老始成。这篇文章主要讲述客快物流大数据项目:大数据项目为什么使用Docker相关的知识,希望能为你提供帮助。
大数据项目为什么使用Docker随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟,业界有不少的大数据研发团队开始使用Docker。简单来说,Docker会让大数据平台部署更加简单快捷、让研发和测试团队集成交付更加敏捷高效、让产线环境的运维更加有质量保障。
一、场景一在大数据平台型产品的开发过程中,经常要跟许多模块打交道,包括Hadoop、HBase、Hive、Spark、Sqoop、Zookeeper……等多达几十个开源组件,为了不影响团队成员间的工作任务协同,开发人员其实非常需要自己有一套独立的集群环境,以便反复测试自己负责的模块,可真实的企业开发环境往往只有一两个大的虚拟集群,这可怎么办?
难道要给每个开发人员都配几台独立的物理机器?
二、场景二针对每一次新版本的发布,产品测试组都需要反复的重装整个平台以便发现问题,而正如本文前面所阐述的那样,大数据平台所依赖的组件繁多,不同组件模块依赖的底层库也不尽相同,经常会出现各种依赖冲突问题,而一旦安装完成,就很难再让Linux系统恢复到一个非常干净的状态,通过Remove、UnInstall、rpm -e等手动方式卸载,往往需要花费很长的时间,那如何才能快速地恢复大数据平台集群的系统环境?
三、场景三当测试人员在测试大数据平台过程中发现了一个BUG,需要保存现场,这里面包括相关的大数据组件配置、进程状态、运行日志、还有一些中间数据,可是,平台集群服务器节点数量很多,针对每个进程的配置目录和日志文件,都相对较独立,一般都需要专业的开发工程师或者运维工程师进入相关服务器节点,按照不同组件的个性化配置信息,手工方式收集所需的各个条目信息,然后打包汇集到日志中心服务器进行统一分析,而目前业界并没有一款能够自动分布式收集故障相关的日志系统,但测试工作还要继续,怎么办?
传统解决方案的缺陷
想要解决这些问题,第一个想到的方案当然是用虚拟机,但这种方式并不能完美的解决以上问题,比如:
【客快物流大数据项目(大数据项目为什么使用Docker)】
推荐阅读
- TiDB Binlog工具Drainer使用
- 第02关 如何体系化掌握数据库(技术选型之数据库选型 基于 docker 搭建 mysql 主从)
- 手机在网时长和在网状态的区别
- [ C语言 ]一篇带你初识结构体--用C语言描述一个复杂对象
- HarmonyOS - ArkUI(JS)之list自定义地区组件
- SAP Marketing Cloud Contact 模型的导入配置和数据合并原理
- Python技能树共建requests-html库初识
- POJ - 1062nyoj - 510昂贵的聘礼 (Dijkstra最短路+思维)
- 51Nod - 1001数组中和等于K的数对 (排序+ 尺取)