数据挖掘中数据源的类型详细介绍

在这篇文章中, 我们将讨论在数据挖掘过程中使用哪些不同的数据源。来自多个来源的数据被集成到称为数据仓库.
让我们讨论一下可以开采的数据类型:

【数据挖掘中数据源的类型详细介绍】平面文件关系数据库DataWarehouse事务数据库多媒体数据库空间数据库时间序列数据库万维网(WWW)
  1. 平面文件
    • 平面文件被定义为文本形式或二进制形式的数据文件, 其结构易于被数据挖掘算法提取。
    • 平面文件中存储的数据之间没有关系或路径, 就像关系数据库存储在平面文件中一样, 表之间也就没有关系。
    • 平面文件由数据字典表示。例如:CSV文件。
    • 应用:用于DataWarehousing中存储数据, 用于在服务器之间传送数据, 等等。
  2. 关系数据库
    • 一种关系型数据库定义为在具有行和列的表中组织的数据集合。
    • 关系数据库中的物理模式是定义表结构的模式。
    • 关系数据库中的逻辑模式是定义表之间关系的模式。
    • 关系数据库的标准API是SQL.
    • 应用:数据挖掘, ROLAP模型等
  3. 数据仓库
    • 数据仓库定义为从多个来源集成的数据集合, 这些数据将进行查询和决策。
    • 数据仓库有三种类型:企业数据仓库, 数据库和虚拟仓库。
    • 可以使用两种方法来更新DataWarehouse中的数据:查询驱动方法和更新驱动方法。
    • 应用:业务决策, 数据挖掘等
  4. 交易数据库
    • 事务数据库是按时间戳, 日期等组织的数据集合, 以表示数据库中的事务。
    • 当事务未完成或提交时, 这种类型的数据库具有回滚或撤消其操作的能力。
    • 高度灵活的系统, 用户可以在不更改任何敏感信息的情况下修改信息。
    • 跟随ACID属性DBMS。
    • 应用:银行, 分布式系统, 对象数据库等。
  5. 多媒体资料库
    • 多媒体数据库包括音频, 视频, 图像和文本媒体。
    • 它们可以存储在面向对象的数据库中。
    • 它们用于以预定格式存储复杂信息。
    • 应用:数字图书馆, 视频点播, 新闻点播, 音乐数据库等。
  6. 空间数据库
    • 存储地理信息。
    • 以坐标, 拓扑, 线, 多边形等形式存储数据。
    • 应用:地图, 全球定位等
  7. 时间序列数据库
    • 时间序列数据库包含证券交易所数据和用户记录的活动。
    • 处理按时间, 日期等索引的数字数组。
    • 它需要实时分析。
    • 应用:eXtremeDB, Graphite, InfluxDB等
  8. 万维网
    • WWW是指万维网, 是音频和视频, 文本等文件和资源的集合, 这些文件和资源由统一资源定位器(URL)通过Web浏览器标识, 由HTML页面链接并可以通过Internet网络访问。
    • 它是最异构的存储库, 因为它从多种资源中收集数据。
    • 本质上, 它是动态的, 因为数据量在不断增加和变化。
    • 应用:在线购物, 求职, 研究, 学习等。

    推荐阅读