密度函数python 密度函数公式( 二 )


运行该示例将创建合成的聚类数据集,然后创建输入数据的散点图 , 其中点由类标签(理想化的群集)着色 。我们可以清楚地看到两个不同的数据组在两个维度,并希望一个自动的聚类算法可以检测这些分组 。
已知聚类着色点的合成聚类数据集的散点图接下来,我们可以开始查看应用于此数据集的聚类算法的示例 。我已经做了一些最小的尝试来调整每个方法到数据集 。3.亲和力传播亲和力传播包括找到一组最能概括数据的范例 。
它是通过 AffinityPropagation 类实现的,要调整的主要配置是将“ 阻尼 ”设置为0.5到1,甚至可能是“首选项” 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型,并预测数据集中每个示例的群集 。然后创建一个散点图 , 并由其指定的群集着色 。在这种情况下,我无法取得良好的结果 。
数据集的散点图,具有使用亲和力传播识别的聚类
4.聚合聚类
聚合聚类涉及合并示例,直到达到所需的群集数量为止 。它是层次聚类方法的更广泛类的一部分,通过 AgglomerationClustering 类实现的,主要配置是“ n _ clusters ”集,这是对数据中的群集数量的估计 , 例如2 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型 , 并预测数据集中每个示例的群集 。然后创建一个散点图,并由其指定的群集着色 。在这种情况下,可以找到一个合理的分组 。
使用聚集聚类识别出具有聚类的数据集的散点图
5.BIRCHBIRCH
聚类( BIRCH 是平衡迭代减少的缩写,聚类使用层次结构)包括构造一个树状结构,从中提取聚类质心 。
它是通过 Birch 类实现的 , 主要配置是“ threshold ”和“ n _ clusters ”超参数,后者提供了群集数量的估计 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型,并预测数据集中每个示例的群集 。然后创建一个散点图,并由其指定的群集着色 。在这种情况下,可以找到一个很好的分组 。
使用BIRCH聚类确定具有聚类的数据集的散点图
6.DBSCANDBSCAN
聚类(其中 DBSCAN 是基于密度的空间聚类的噪声应用程序)涉及在域中寻找高密度区域,并将其周围的特征空间区域扩展为群集 。
它是通过 DBSCAN 类实现的,主要配置是“ eps ”和“ min _ samples ”超参数 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型,并预测数据集中每个示例的群集 。然后创建一个散点图,并由其指定的群集着色 。在这种情况下,尽管需要更多的调整,但是找到了合理的分组 。
使用DBSCAN集群识别出具有集群的数据集的散点图
7.K均值
K-均值聚类可以是最常见的聚类算法,并涉及向群集分配示例,以尽量减少每个群集内的方差 。
它是通过 K-均值类实现的 , 要优化的主要配置是“ n _ clusters ”超参数设置为数据中估计的群集数量 。下面列出了完整的示例 。
运行该示例符合训练数据集上的模型,并预测数据集中每个示例的群集 。然后创建一个散点图,并由其指定的群集着色 。在这种情况下 , 可以找到一个合理的分组,尽管每个维度中的不等等方差使得该方法不太适合该数据集 。
使用K均值聚类识别出具有聚类的数据集的散点图
8.Mini-Batch
K-均值Mini-Batch K-均值是 K-均值的修改版本,它使用小批量的样本而不是整个数据集对群集质心进行更新 , 这可以使大数据集的更新速度更快,并且可能对统计噪声更健壮 。
它是通过 MiniBatchKMeans 类实现的,要优化的主配置是“ n _ clusters ”超参数,设置为数据中估计的群集数量 。下面列出了完整的示例 。

推荐阅读