在这篇文章中, 我们将讨论在数据挖掘过程中使用哪些不同的数据源。来自多个来源的数据被集成到称为数据仓库.
让我们讨论一下可以开采的数据类型:
【数据挖掘中数据源的类型详细介绍】平面文件关系数据库DataWarehouse事务数据库多媒体数据库空间数据库时间序列数据库万维网(WWW)
- 平面文件
- 平面文件被定义为文本形式或二进制形式的数据文件, 其结构易于被数据挖掘算法提取。
- 平面文件中存储的数据之间没有关系或路径, 就像关系数据库存储在平面文件中一样, 表之间也就没有关系。
- 平面文件由数据字典表示。例如:CSV文件。
- 应用:用于DataWarehousing中存储数据, 用于在服务器之间传送数据, 等等。
- 关系数据库
- 一种关系型数据库定义为在具有行和列的表中组织的数据集合。
- 关系数据库中的物理模式是定义表结构的模式。
- 关系数据库中的逻辑模式是定义表之间关系的模式。
- 关系数据库的标准API是SQL.
- 应用:数据挖掘, ROLAP模型等
- 数据仓库
- 数据仓库定义为从多个来源集成的数据集合, 这些数据将进行查询和决策。
- 数据仓库有三种类型:企业数据仓库, 数据库和虚拟仓库。
- 可以使用两种方法来更新DataWarehouse中的数据:查询驱动方法和更新驱动方法。
- 应用:业务决策, 数据挖掘等
- 交易数据库
- 事务数据库是按时间戳, 日期等组织的数据集合, 以表示数据库中的事务。
- 当事务未完成或提交时, 这种类型的数据库具有回滚或撤消其操作的能力。
- 高度灵活的系统, 用户可以在不更改任何敏感信息的情况下修改信息。
- 跟随ACID属性DBMS。
- 应用:银行, 分布式系统, 对象数据库等。
- 多媒体资料库
- 多媒体数据库包括音频, 视频, 图像和文本媒体。
- 它们可以存储在面向对象的数据库中。
- 它们用于以预定格式存储复杂信息。
- 应用:数字图书馆, 视频点播, 新闻点播, 音乐数据库等。
- 空间数据库
- 存储地理信息。
- 以坐标, 拓扑, 线, 多边形等形式存储数据。
- 应用:地图, 全球定位等
- 时间序列数据库
- 时间序列数据库包含证券交易所数据和用户记录的活动。
- 处理按时间, 日期等索引的数字数组。
- 它需要实时分析。
- 应用:eXtremeDB, Graphite, InfluxDB等
- 万维网
- WWW是指万维网, 是音频和视频, 文本等文件和资源的集合, 这些文件和资源由统一资源定位器(URL)通过Web浏览器标识, 由HTML页面链接并可以通过Internet网络访问。
- 它是最异构的存储库, 因为它从多种资源中收集数据。
- 本质上, 它是动态的, 因为数据量在不断增加和变化。
- 应用:在线购物, 求职, 研究, 学习等。
推荐阅读
- Python中机器学习的数据预处理
- 数据挖掘基本概念详细介绍
- R中的DataFrame操作详细指南
- 编译器中的数据流分析简要指南
- 数据通信中的传输障碍详细指南
- Supervisor多进程管理 异常自动重启 可视化管理
- 使用Maven搭建Struts2框架的开发环境
- #yyds干货盘点#Prometheus 之微服务监控概述
- 2月活动|开工冲冲冲,挑战7/14/21日连更!