聚类还可用作特征工程的类型,其中现有的和新的示例可被映射并标记为属于数据中所标识的群集之一 。虽然确实存在许多特定于群集的定量措施 , 但是对所识别的群集的评估是主观的 , 并且可能需要领域专家 。通常,聚类算法在人工合成数据集上与预先定义的群集进行学术比较,预计算法会发现这些群集 。
有许多类型的聚类算法 。许多算法在特征空间中的示例之间使用相似度或距离度量 , 以发现密集的观测区域 。因此,在使用聚类算法之前,扩展数据通常是良好的实践 。
一些聚类算法要求您指定或猜测数据中要发现的群集的数量,而另一些算法要求指定观测之间的最小距离,其中示例可以被视为“关闭”或“连接” 。因此,聚类分析是一个迭代过程,在该过程中,对所识别的群集的主观评估被反馈回算法配置的改变中,直到达到期望的或适当的结果 。scikit-learn 库提供了一套不同的聚类算法供选择 。下面列出了10种比较流行的算法:
每个算法都提供了一种不同的方法来应对数据中发现自然组的挑战 。没有最好的聚类算法,也没有简单的方法来找到最好的算法为您的数据没有使用控制实验 。在本教程中,我们将回顾如何使用来自 scikit-learn 库的这10个流行的聚类算法中的每一个 。这些示例将为您复制粘贴示例并在自己的数据上测试方法提供基础 。我们不会深入研究算法如何工作的理论,也不会直接比较它们 。让我们深入研究一下 。
在本节中,我们将回顾如何在 scikit-learn 中使用10个流行的聚类算法 。这包括一个拟合模型的例子和可视化结果的例子 。这些示例用于将粘贴复制到您自己的项目中,并将方法应用于您自己的数据 。
1.库安装
首先,让我们安装库 。不要跳过此步骤,因为你需要确保安装了最新版本 。你可以使用 pip Python 安装程序安装 scikit-learn 存储库,如下所示:
接下来 , 让我们确认已经安装了库,并且您正在使用一个现代版本 。运行以下脚本以输出库版本号 。
运行该示例时,您应该看到以下版本号或更高版本 。
2.聚类数据集
我们将使用 make _ classification ()函数创建一个测试二分类数据集 。数据集将有1000个示例,每个类有两个输入要素和一个群集 。这些群集在两个维度上是可见的 , 因此我们可以用散点图绘制数据,并通过指定的群集对图中的点进行颜色绘制 。这将有助于了解 , 至少在测试问题上,群集的识别能力如何 。该测试问题中的群集基于多变量高斯 , 并非所有聚类算法都能有效地识别这些类型的群集 。因此 , 本教程中的结果不应用作比较一般方法的基础 。下面列出了创建和汇总合成聚类数据集的示例 。
运行该示例将创建合成的聚类数据集,然后创建输入数据的散点图 , 其中点由类标签(理想化的群集)着色 。我们可以清楚地看到两个不同的数据组在两个维度,并希望一个自动的聚类算法可以检测这些分组 。
已知聚类着色点的合成聚类数据集的散点图接下来,我们可以开始查看应用于此数据集的聚类算法的示例 。我已经做了一些最小的尝试来调整每个方法到数据集 。3.亲和力传播亲和力传播包括找到一组最能概括数据的范例 。
它是通过 AffinityPropagation 类实现的,要调整的主要配置是将“ 阻尼 ”设置为0.5到1,甚至可能是“首选项” 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型,并预测数据集中每个示例的群集 。然后创建一个散点图 , 并由其指定的群集着色 。在这种情况下,我无法取得良好的结果 。
推荐阅读
- obs直播教程的简单介绍
- 苹果升级ios14怎么样,苹果升级ios14好吗
- Python函数传址调用 python函数传地址
- w7怎么查看电脑显卡,windows7如何查看电脑显卡
- 变强服务器,服务器改造
- 特效拍摄现场大揭秘是什么,特效拍摄方案
- mysql怎么删除备份 mysql数据
- 显卡扇叶直径改小会怎么样的简单介绍
- mySQL装好如何改密码,mysql怎样改密码