本文概述
- 数据仓库架构:基本
- 数据仓库架构:带有暂存区
- 数据仓库架构:具有暂存区和数据集市
- 数据仓库架构的属性
- 数据仓库架构的类型
生产应用程序(例如薪资帐户, 应付产品购买和库存控制)设计用于在线事务处理(OLTP)。这些应用程序每天收集详细的数据。
数据仓库应用程序旨在支持用户临时数据要求, 该活动最近被称为在线分析处理(OLAP)。这些包括诸如预测, 分析, 摘要报告和趋势分析之类的应用程序。
通过手工或通过OLTP应用程序连续更新生产数据库。相反, 通常在下班时间从操作系统定期更新仓库数据库。随着OLTP数据在生产数据库中累积, 它会定期提取, 过滤并加载到用户可以访问的专用仓库服务器中。在填充仓库时, 必须对表进行非规范化的重组, 清除错误和冗余的数据, 并添加新的字段和键以反映用户对数据进行排序, 合并和汇总的需求。
数据仓库及其架构非常取决于组织情况的要素。
三种常见的体系结构是:
- 数据仓库架构:基本
- 数据仓库架构:具有暂存区
- 数据仓库架构:具有暂存区和数据集市
文章图片
作业系统
操作系统是一种用于数据仓库的方法, 是指用于处理组织的日常事务的系统。
平面文件
平面文件系统是其中存储事务数据的文件系统, 并且系统中的每个文件都必须具有不同的名称。
元数据
一组数据, 用于定义并提供有关其他数据的信息。
数据仓库中用于各种目的的元数据, 包括:
元数据总结了有关数据的必要信息, 这可以使查找和处理特定数据实例更加容易。例如, 作者, 数据构建和数据更改以及文件大小是非常基本的文档元数据的示例。
元数据用于将查询定向到最合适的数据源。
高度概括的数据
数据仓库的区域保存了仓库管理器生成的所有预定义的轻量且高度汇总(汇总)的数据。
摘要信息的目标是提高查询性能。随着新信息加载到仓库中, 摘要记录将不断更新。
最终用户访问工具
数据仓库的主要目的是向业务经理提供信息以进行战略决策。这些客户使用最终客户访问工具与仓库进行交互。
一些最终用户访问工具的示例可以是:
- 报告和查询工具
- 应用开发工具
- 行政信息系统工具
- 在线分析处理工具
- 数据挖掘工具
该
尽管数据仓库使用临时区域(进入仓库之前处理数据的地方), 但是e可以通过编程方式执行此操作。
临时区域可简化来自多个源系统的操作方法的数据清理和合并, 尤其是对于企业数据仓库已合并到企业的所有相关数据的企业数据仓库而言。
文章图片
数据仓库暂存区是一个临时位置, 从源系统复制记录。
文章图片
数据仓库架构:具有暂存区和数据集市 我们可能想为组织中的多个小组定制仓库的架构。
我们可以通过添加数据集市来做到这一点。数据集市是数据仓库的一部分, 可以提供信息以用于报告和分析公司中的部门, 部门, 部门或运营, 例如销售, 薪资, 生产等。
该图说明了将购买, 销售和库存分开的示例。在此示例中, 财务分析师希望分析购买和销售的历史数据或挖掘历史信息以做出有关客户行为的预测。
文章图片
数据仓库架构的属性 以下架构属性对于数据仓库系统是必需的:
文章图片
1.分离:分析处理和事务处理应尽可能分开。
2.可伸缩性:硬件和软件体系结构应该易于升级, 以升级必须管理和处理的数据量, 并且必须满足的用户需求数量逐渐增加。
3.可扩展性:体系结构应该能够执行新的操作和技术, 而无需重新设计整个系统。
4.安全性:由于策略数据存储在数据仓库中, 因此有必要监视访问。
5.可管理性:数据仓库管理不应复杂。
数据仓库架构的类型
文章图片
单层架构
在实践中, 不定期使用单层体系结构。其目的是最大程度地减少存储数据量以实现此目标。它删除了数据冗余。
该图显示了物理上唯一可用的层是源层。在这种方法中, 数据仓库是虚拟的。这意味着数据仓库被实现为由特定中间件或中间处理层创建的操作数据的多维视图。
文章图片
该体系结构的漏洞在于无法满足分析处理和事务处理之间分离的要求。中间件解释分析查询后, 同意对操作数据进行分析。这样, 查询会影响事务性工作负载。
两层架构
分离的需求在定义数据仓库系统的两层体系结构中起着至关重要的作用, 如图所示:
文章图片
尽管通常将其称为两层体系结构以突出显示物理可用源与数据仓库之间的分离, 但实际上它由四个后续数据流阶段组成:
- 源层:数据仓库系统使用异构数据源。该数据最初存储在公司关系数据库或旧数据库中, 或者可能来自公司外部的信息系统。
- 数据分段:应该提取存储到源的数据, 将其清除以消除不一致之处并填补空白, 并进行集成以将异构源合并到一个标准架构中。所谓的提取, 转换和加载工具(ETL)可以将异构模式组合, 提取, 转换, 清理, 验证, 过滤并将源数据加载到数据仓库中。
- 数据仓库层:信息被保存到一个逻辑上集中的单个存储库:一个数据仓库。可以直接访问数据仓库, 但也可以将其用作创建数据集市的源, 该数据集市可以部分复制数据仓库的内容, 并且是为特定企业部门设计的。元数据存储库存储有关源, 访问过程, 数据分段, 用户, 数据集市模式等的信息。
- 分析:在此层中, 可以高效, 灵活地访问集成数据以发布报告, 动态分析信息并模拟假设的业务场景。它应具有汇总信息导航器, 复杂的查询优化器和客户友好的GUI。
三层体系结构由源层(包含多个源系统), 协调层和数据仓库层(包含数据仓库和数据集市)组成。协调层位于源数据和数据仓库之间。
协调层的主要优点是, 它为整个企业创建了标准参考数据模型。同时, 它将源数据提取和集成问题与数据仓库填充问题分开。在某些情况下, 对帐层还直接用于更好地完成某些操作任务, 例如生成使用公司应用程序无法令人满意地准备的每日报告, 或生成数据流以定期馈送外部流程以受益于清理和集成。
【数据仓库架构】该体系结构对于广泛的企业级系统特别有用。这种结构的缺点是通过额外的冗余协调层使用了额外的文件存储空间。这也使分析工具离实时性稍远了。
文章图片
推荐阅读
- 数据仓库的组件或构建块
- 数据仓库入门介绍
- 什么是OLAP(OLAP的特征)
- 数据仓库|MapReduce分片阶段详解
- 数据仓库|DolphinScheduler
- 数据安全|数据安全技术落地经验浅谈和分类分级实施
- .NET|EF Core codefirst数据迁移操作
- 数据仓库|从理论到工程实践——用户画像入门宝典
- 数仓建模—ID Mapping