云原生DaaS服务—大数据服务

丈夫欲遂平生志,一载寒窗一举汤。这篇文章主要讲述云原生DaaS服务—大数据服务相关的知识,希望能为你提供帮助。
大数据技术可以有效地帮助企业整合、挖掘、分析其所掌握的庞大数据信息,构建系统化的数据体系,从而完善企业自身的结构和管理机制。同时,伴随消费者个性化需求的增长,大数据在各个领域的应用开始逐步显现,已经开始并正在改变着大多数企业的发展途径及商业模式。
基于大数据相关技术为企业应用提供数据的采集、加工处理,以及价值挖掘。大数据平台分为大数据存储服务、大数据计算服务、大数据综合治理、数据服务。

  • 大数据存储服务采用分布式存储(底层基于分布式文件系统)来保存海量数据的结构化数据与非结构化数据。
  • 大数据计算服务包含离线计算、实时计算、流计算、图计算等计算引擎。
  • 大数据综合治理包含大数据研发、数据集成平台、大数据运维、大数据模型、大数据管理和数据可视化。数据集成平台支持所有常见关系型数据库、NoSQL及大数据仓库之间的数据传输;它是一种集数据清洗、转换、迁移、实时数据订阅及数据实时同步于一体的数据传输服务。大数据模型负责大数据仓库中的数据建模工作,主要将数据整理、分化为基础数据层、明细数据层、主题数据层、专题数据层。数据可视化负责以图形、报表的方式展示给使用者。
  • 数据服务负责将大数据层的业务结果以服务的方式发布出来,以提供给大数据分析的业务组件调用。
DaaS数据服务主要包含大数据平台、数据资源池和数据集成平台。

大数据平台大数据平台一般由离线计算、流式计算、实时计算、机器学习、数据开发、数据运维、数据管理、可视化报表工具和数据可视化工具等计算引擎和工具组成。

大数据计算平台提供完整的计算能力服务,包括离线计算、实时计算和流式计算三大计算引擎,以满足企业级应用多样化的数据处理需求。
1.离线计算分布式离线计算是海量数据离线处理服务,针对PB级的数据,单表可达万亿条记录,适用于实时性要求不高的批量处理,主要应用于大型数据仓库、日志分析、数据挖掘和商业智能等领域,支持分布式SQL,支持多种数据分析挖掘的分布式计算框架,内置大量数据挖掘和机器学习算法包。为了支持应用系统海量数据的建设,分布式离线计算系统具有PB级的存储处理能力和PB级的计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力,可以让多个用户在一套平台上协同工作。
2.实时计算分布式实时计算则是一套实时联机分析处理(Online Analytical Processing,OLAP)系统,构建在分布式系统基础服务之上,是基于大规模并行处理(Massively Parallel Processing,MPP)架构并融合了搜索引擎索引技术的分布式实时计算系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无须预先建模。分布式实时计算能够支撑较高并发查询量,并且通过动态的多副本数据存储计算技术来确保较高的系统可用性,因此能够直接作为面向最终用户的产品的后端系统。
3.流式计算大数据流式计算为大数据计算平台建设提供流式数据处理能力,提供毫秒级至秒级的数据延迟处理服务,提供流式类SQL功能,支持流式数据写入和实时数据写出。流式计算是一个实时的增量计算平台,能提供类似于SQL的语言等计算模型完成增量式计算。其数据处理流程及核心模块构成如下。
  • 数据产生:生产数据发生源,通常服务器日志、数据库日志、第三方数据均是数据生产者,这份流式数据将作为流式计算的驱动源进入数据集成模块。
  • 数据集成:提供针对流式数据进行数据发布和订阅的数据总线。
  • 数据计算:流式计算通过订阅数据集成提供的流式数据,驱动流式计算的运行。
  • 数据存储:流式计算将流式加工计算的结果写入数据存储,包括关系型数据库、NoSQL数据库、OLAP系统等。
  • 数据消费:不同的数据存储可以进行多样化的数据消费。提供消息队列的数据存储可以用作告警、提供关系型数据库的数据存储可以提供在线业务支持等。
数据资源池数据资源池的数据库包括业务库、专题库、模型库、知识库、训练库、日志库、事件库和测试库,构建各类专题数据库,从而更好地进行数据分析,为各类数据技术负责数据资源整理分类及业务库(结构化/非结构化数据)提供技术支撑。
作为一个海量数据离线处理与分析的平台服务,非结构化数据技术支撑平台融合了分布式存储与计算、分布式数据仓库以及云计算服务等先进技术和运营理念,以云计算服务的形式实现海量数据的分享与处理;专注处理实时性要求不高的海量数据(TB/PB级)离线处理,应用于数据仓库构建、海量数据统计、数据挖掘和数据商业智能方面;支持MapReduce和类SQL的查询方式。
实时分析数据库服务是海量数据实时高并发在线分析计算服务,可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索;具有对海量数据的自由计算和极速响应能力,能快速、灵活地探索数据,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。
列数据库服务提供海量结构化数据的存储和实时访问。最高可支持单表百TB级数据规模,读写仅有毫秒级延迟,最高每秒查询率(Queries Per Second,QPS)可达十万级。以实例和表的形式组织数据,通过数据分片和负载均衡技术,实现规模上的无限扩展,还可以通过调用API / SDK或者操作管理控制台来使用列数据库服务。
数据集成平台数据集成平台支持RDBMS、NoSQL、OLAP等数据源之间的数据迁移同步。它提供数据库不停服迁移、实时数据订阅及数据实时同步等多种数据传输方式。通过数据集成平台,可以在源数据库正常运行的情况下平滑地完成数据迁移。同时,还可以利用数据集成平台进行业务库实例间的数据实时同步,有效解决数据异地容灾、减少跨地区访问等业务问题。除此之外,数据集成平台还支持业务库实例增量数据实时订阅,通过数据订阅实现轻量级缓存更新、异步消息通知及定制化数据实时同步等业务场景。
【云原生DaaS服务—大数据服务】数据集成平台提供对业务方数据库进行抽取和监控功能,能对数据源的数据资源进行统一清点,并能够在复杂的网络情况下对异构的数据源进行数据同步与集成,包括对关系型数据库、NoSQL数据库、大数据数据库、FTP等数据库类型的支持,支持离线数据的批量、全量、增量同步,支持以分钟、小时、日、周、月来自定义同步时间。

    推荐阅读