一、划分聚类:根据距离(相似度) 划分
文章图片
曼哈顿距离:距离很近情况下的近似计算;切比雪夫距离:某一维度距离特别大,其他维度距离都很近的情况下距离计算
大多数情况都用欧氏距离
文章图片
文章图片
文章图片
1.1. k-means
文章图片
文章图片
文章图片
解决初值敏感的算法思路: 主要思想:1)做一部分抽样,根据概率可以将原始样本稀疏化,剔除少数异常样本的影响(k-means||)选择初始簇心;2)k值从2开始,不断增加到k(二分k-means);3)对样本多的进行划分,或者对误差和SSE大的样本集继续划分二分k-means)
文章图片
文章图片
文章图片
怎么缺点簇的数量k的算法思路:
文章图片
文章图片
怎么解决大规模数据集收敛速度的算法思路:
文章图片
文章图片
实际过程中,一般用轮廓系数/api中的km.score(X) 来度量距离总和,其他的评估指标一般不用
文章图片
2、层次聚类
文章图片
文章图片
文章图片
birch: 适合大数据集
文章图片
二、密度聚类(适用于非凸函数)
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
任意形状的数据的聚类
文章图片
文章图片
文章图片
【聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)】
文章图片