本文概述
- 1.分类
- 2.聚类
- 3.回归
- 4.关联规则
- 5.外部检测
- 6.顺序模式
- 7.预测
依赖于机器学习, 数据库管理和统计数据相交的各种方法和技术, 数据挖掘专业人员致力于他们的职业, 以更好地了解如何处理和从大量数据中得出结论, 但是他们使用的方法是什么?实现它?
在最近的数据挖掘项目中, 已经开发并使用了各种主要的数据挖掘技术, 包括关联, 分类, 聚类, 预测, 顺序模式和回归。
文章图片
1.分类 该技术用于获取有关数据和元数据的重要信息。这种数据挖掘技术有助于将数据分类为不同的类别。
数据挖掘技术可以按不同的标准进行分类, 如下所示:
- 根据所挖掘的数据源的类型对数据挖掘框架进行分类:此分类根据所处理的数据类型进行。例如, 多媒体, 空间数据, 文本数据, 时间序列数据, 万维网等。
- 根据所涉及的数据库对数据挖掘框架进行分类:此分类基于所涉及的数据模型。例如。面向对象的数据库, 事务性的数据库, 关系型的数据库等等。
- 根据发现的知识种类对数据挖掘框架进行分类:此分类取决于发现的知识或数据挖掘功能的类型。例如, 区分, 分类, 聚类, 表征等。某些框架往往是广泛的框架, 这些框架一起提供了一些数据挖掘功能。
- 根据使用的数据挖掘技术对数据挖掘框架进行分类:根据使用的数据分析方法进行分类, 例如神经网络, 机器学习, 遗传算法, 可视化, 统计, 面向数据仓库或面向数据库等。分类还可以考虑数据挖掘过程中涉及的用户交互级别, 例如查询驱动系统, 自治系统或交互式探索系统。
换句话说, 可以说聚类分析是一种用于识别相似数据的数据挖掘技术。此技术有助于识别数据之间的差异和相似性。聚类与分类非常相似, 但是聚类涉及根据数据的相似性将数据块分组在一起。
3.回归 回归分析是由于存在其他因素, 因此数据挖掘过程用于识别和分析变量之间的关系。它用于定义特定变量的概率。回归, 主要是规划和建模的一种形式。例如, 我们可能会用它来预测某些成本, 具体取决于可用性, 消费者需求和竞争等其他因素。首先, 它给出了给定数据集中两个或多个变量之间的确切关系。
4.关联规则 这种数据挖掘技术有助于发现两个或多个项目之间的链接。它在数据集中找到隐藏的模式。
关联规则是if-then语句, 支持显示不同类型数据库中大型数据集中数据项之间的交互概率。关联规则挖掘有多种应用程序, 通常用于帮助数据或医疗数据集中的销售关联。
【数据挖掘技术详解】该算法的工作方式是你拥有各种数据, 例如, 过去六个月中一直在购买的杂货清单。它计算一起购买的商品的百分比。
这是三种主要的测量技术:
- 提升度:这项测量技术可测量购买商品B的置信度的准确性。 (置信度)/(项目B)/(整个数据集)
- 支持:这项测量技术可以测量购买多件物品的频率, 并将其与整体数据集进行比较。 (项目A +项目B)/(整个数据集)
- 置信度:这种测量技术可以测量购买商品A时购买商品B的频率。 (项目A +项目B)/(项目A)
6.顺序模式 顺序模式是专门用于评估顺序数据以发现顺序模式的数据挖掘技术。它包括在一组序列中找到有趣的子序列, 其中可以根据不同的标准(例如长度, 出现频率等)来测量序列的赌注。
换句话说, 这种数据挖掘技术有助于在一段时间内发现或识别交易数据中的相似模式。
7.预测 预测结合了其他数据挖掘技术(例如趋势, 聚类, 分类等)的组合。它以正确的顺序分析过去的事件或实例, 以预测将来的事件。