聚类分析的思想,简述聚类分析的基本思想

聚类 分析,根据研究对象的不同可分为Q型聚类、R型聚类1、聚类-2 。聚类 分析主要用于探索性研究 , 分析的结果可以提供多个可能的解,选择最终方案需要研究者的主观判断和后续的分析;不管实际数据中是否存在不同的类别,用聚类 分析就可以得到分成几类的解,聚类 分析的解完全取决于研究者选择的聚类变量,添加或删除一些变量可能会对最终解产生实质性影响 。

1、K-Means 聚类算法问题导入如果有这样的情况,有一天你想去某个城市旅游,这个城市有70个你想去的地方,现在你只有每个地方的地址 。这个地址列表很长,有70个位置 。一定要提前做好准备 。你应该把一些接近的地方放在一起组成一个小组,这样你就可以安排交通工具到达这些小组的“一个地址”,然后步行到每个小组中的地址 。那么,如何确定这些群体,如何确定这些群体的“一个地址”呢?

本文提供的k means聚类分析方法可以用来解决这类问题 。1.聚类 思想所谓的聚类算法是指将一堆未标记的数据自动分成几类的方法,属于无监督学习方法 。这种方法要保证同一类别的数据具有相似的特征,如下图所示:根据样本之间的距离或相似度,越相似越相似 。

2、 聚类 分析(clusteranalysis我们来看看这里聚类 分析 。比较流行的方法有聚类和K-means 聚类,属于split 聚类方法 。KMeans算法的思想非常简单 。对于给定的样本集,根据样本之间的距离将其划分为k个聚类 。让簇内的点尽可能的紧密连接,让簇间的距离尽可能的大 。目标是最小化Esum(x\miu_i) , 其中\miu_i是每个聚类的平均值 。直接求上述公式的最小值并不容易,这是一个NP难问题 , 所以采用了启发式迭代法KMeans 。

【聚类分析的思想,简述聚类分析的基本思想】上面的图A代表初始数据集,假设k3 。在图B中 , 我们随机选取三个K类别对应的类别质心,即图中的红绿和草绿质心,然后分别求出样本中所有点到这三个质心的距离,将每个样本的类别标记为与样本距离最小的类别,如图c所示 , 计算样本与红绿和草绿质心的距离后,第一次迭代后得到所有样本点的类别 。此时 , 我们找到我们当前点的新质心,分别标记为红色、绿色和草绿色 , 重复这个过程,将所有点的类别标记为最近质心的类别,找到新质心 。

    推荐阅读