本文概述
- 源数据组件
- 数据登台组件
- 数据存储组件
- 信息传递组件
- 元数据组件
- 数据三月
- 管理和控制组件
- 为什么我们需要一个单独的数据仓库?
- 数据库和数据仓库之间的区别
文章图片
该图显示了典型仓库的基本要素。我们看到“源数据”组件显示在左侧。数据登台元素用作下一个构建块。在中间, 我们看到了处理数据仓库数据的数据存储组件。该元素不仅可以存储和管理数据, 还可以存储数据。它还使用元数据存储库跟踪数据。右侧显示的“信息传递”组件包括使数据仓库中的信息可供用户使用的所有不同方式。
源数据组件 进入数据仓库的源数据可以分为四大类:
生产数据:此类数据来自企业的不同操作系统。根据数据仓库中的数据需求, 我们从各种操作模式中选择数据段。
内部数据:在每个组织中, 客户都保留其“专用”电子表格, 报告, 客户资料, 有时甚至还保存部门数据库。这是内部数据, 其中一部分可能在数据仓库中有用。
存档数据:操作系统主要用于运行当前业务。在每个操作系统中, 我们会定期获取旧数据并将其存储在已实现的文件中。
外部数据:大多数高管依赖于来自外部来源的信息来获取他们使用的大部分信息。他们使用与外部部门关联的与其行业相关的统计信息。
数据登台组件 从各种操作系统和外部源中提取数据后, 我们必须准备文件以存储在数据仓库中。来自多个不同来源的提取数据需要进行更改, 转换并准备好相关格式, 以便保存以进行查询和分析。
【数据仓库的组件或构建块】现在, 我们将讨论登台区域中发生的三个主要功能。
1)数据提取:此方法必须处理大量数据源。我们必须为每个数据源采用适当的技术。
2)数据转换:众所周知, 数据仓库的数据来自许多不同的来源。如果为数据仓库提取数据带来了巨大挑战, 那么数据转换甚至会带来巨大挑战。作为数据转换的一部分, 我们执行一些单独的任务。
首先, 我们清理从每个来源提取的数据。清除可能是纠正拼写错误, 或者可能是为丢失的数据元素提供默认值, 或者当我们从各种源系统中引入相同数据时消除重复项。
数据组件的标准化是数据转换的很大一部分。数据转换包含多种形式的组合不同来源的数据。我们合并来自单个源记录的数据或来自多个源记录的相关数据部分。
另一方面, 数据转换还包含清除无用的源数据并将外包记录分成新的组合。数据分类和合并在数据分级区域中大规模进行。当数据转换功能结束时, 我们将收集到一组经过清理, 标准化和汇总的集成数据。
3)数据加载:任务的两个不同类别构成了数据加载功能。当我们完成数据仓库的结构和构建并首次投入使用时, 我们会将信息初始加载到数据仓库存储中。初始负载会占用大量时间来移动大量数据。
数据存储组件 数据仓库的数据存储是一个拆分存储库。操作系统的数据存储库通常仅包含当前数据。此外, 这些数据存储库还包含高度标准化的结构化数据, 以实现快速有效的处理。
信息传递组件 信息传递元素用于启用订阅数据仓库文件并将其根据某些客户指定的调度算法转移到一个或多个目的地的过程。
元数据组件 数据仓库中的元数据等于数据库管理系统中的数据字典或数据目录。在数据字典中, 我们保留有关逻辑数据结构的数据, 有关记录和地址的数据, 有关索引的信息, 等等。
数据三月 它包括整个公司范围内的数据的子集, 这些数据对特定的用户组有价值。范围仅限于特定的选定主题。尽管数据仓库行业的发展已使标准和增量数据转储更容易实现, 但数据仓库中的数据应该是最新的, 但主要不是最新的。数据集市低于数据仓库, 通常包含组织。数据仓库的当前趋势是开发一个具有几个较小的相关数据集市的数据仓库, 用于特定类型的查询和报告。
管理和控制组件 管理和控制元素协调数据仓库内的服务和功能。这些组件控制数据转换以及将数据传输到数据仓库存储中。另一方面, 它可简化向客户端的数据传递。它与数据库管理系统一起工作, 并授权将数据正确保存在存储库中。它监视信息到暂存方法以及从暂存方法到数据仓库存储本身的移动。
为什么我们需要一个单独的数据仓库? 数据仓库查询很复杂, 因为它们涉及汇总级别的大量数据的计算。
它可能需要使用基于多维视图的独特数据组织, 访问和实现方法。
在操作数据库中执行OLAP查询会降低功能性任务的性能。
数据仓库用于需要大量数据库(包括历史数据)的分析和决策, 而这些历史数据库通常不维护。
将运营数据库与数据仓库分开是基于这些系统中数据的不同结构和用途。
因为这两个系统提供不同的功能并且需要不同种类的数据, 所以有必要维护单独的数据库。
数据库和数据仓库之间的区别
数据库 | 数据仓库 |
---|---|
1.它用于在线事务处理(OLTP), 但也可以用于其他目标, 例如数据仓库。这将记录来自客户端的数据以进行历史记录。 | 1.用于在线分析处理(OLAP)。这将为客户读取历史信息以进行业务决策。 |
2.表和联接很复杂, 因为它们是为RDBMS标准化的。这样做是为了减少冗余文件并节省存储空间。 | 2.由于可以对表和联接进行非规范化, 因此可以对其进行访问。这样做是为了最大程度地减少分析查询的响应时间。 |
3.数据是动态的 | 3.数据基本上是静态的 |
4.实体:关系建模过程用于RDBMS数据库设计。 | 4.数据:建模方法用于数据仓库设计。 |
5.针对写操作进行了优化。 | 5.针对读取操作进行了优化。 |
6.分析查询的性能低下。 | 6.高性能的分析查询。 |
7.数据库是将数据作为基础并进行管理以获得快速有效访问的地方。 | 7.数据仓库是处理应用程序数据以用于分析和报告目标的地方。 |
推荐阅读
- 数据仓库交付流程
- 数据仓库架构
- 数据仓库入门介绍
- 什么是OLAP(OLAP的特征)
- 图论之生成树
- 前10名最佳Vuetify管理仪表板模板 – 免费和高级
- Python OpenCV霍夫变换教程(如何理解和实现形状检测())
- 5个经典JavaScript问题和答案来测试你的技能
- 如何使用Plotly和Python实现交互式数据可视化()