Hadoop框架的主要模块包括以下几个:HadoopCommonHadoop分布式文件系统(HDFS)HadoopYARNHadoopMapReduce虽然以上四个模块构成了Hadoop的核心 , 但是还有其他几个模块 。但是hadoop在数据集市和实时分析表示层也有明显的不足,现在比较好的解决方案是搭建hadoop的数据仓库,在数据集市和实时分析表示层使用永红科技的大数据产品 。
1、怎样选择数据平台的建设方案 1 。为什么要搭建数据平台?业务运行良好,系统运行稳定,为什么要建设企业数据平台?这样的问题就在脑子里想想 , 不要大声问出来 。我直接回答,公司一般在什么情况下需要搭建数据平台来重新编辑各种数据架构 。从业务角度:1 。业务系统太多,彼此的数据不开放 。在这种情况下 , 数据分析比较麻烦,可能需要分析人员从多个系统提取数据 , 然后整合分析之前的数据 。
如何控制人工积分的高错误率?分析不及时低效要不要处理?从系统角度看:2 。业务系统压力很大 , 但是很遗憾 , data 分析是一个消耗资源的任务 。那么自然会想到通过提取数据,由一个独立的服务器来处理数据查询和分析 task来释放业务系统的压力 。3,业绩问题,公司可以越做越大,同样的数据也会越做越大 。可能是历史数据的积累,也可能是新数据内容的加入 。当原有的数据平台无法处理更多的数据,或者效率已经很低的时候,就需要重新构建一个大数据处理平台 。
2、HDFS的优缺点以及应用场景HDFS是hadoopdistributed的缩写 。分布式文件系统是大数据生态系统中的核心概念 。大数据,大数据,数据量大,种类多,一台机器无法存储,多台机器可以存储一个分布式的文件系统,提供对应用数据的高吞吐量访问 。适合一次写,多次看场景 。而且不支持文件的随意修改,支持添加文件 。适用于数据分析随机修改:修改并添加已写入的内存:在之前文件写入的基础上继续添加内容优点:缺点:我自己在实际工作中测试过 。
【试从架构上分析hadoop的优缺点】
3、统一资源管理调度框架的优缺点 YARN是Hadoop 2的重要组件 。十、设计为通用的资源协调和管理框架,可以轻松支持数据处理引擎、内存计算、流计算等多种应用场景 。下面将详细描述优点和缺点 。优点:1 。将资源管理与应用执行能力分离:YARN将资源管理与任务执行完全分离,使得更加灵活高效地调度集群中的资源成为可能,提高了集群中计算资源的利用率 。
推荐阅读
- 超经典串并联电路分析,串并联电路的判断与分析视频
- 天猫运行需要看的数据分析
- 共享单车战略分析
- 3dsmax分析题
- 如何分析图纸
- spss 极差分析,极差分析用什么软件
- 多选题系统分析的可行性分析包括,系统分析中的可行性分析从哪三个方面进行
- 运营痛点分析,内容运营效果分析
- 在机电系统设计与仿真中仿真结果可能与实际相差较多试分析其原因