聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)

一、划分聚类:根据距离(相似度) 划分 聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

曼哈顿距离:距离很近情况下的近似计算;切比雪夫距离:某一维度距离特别大,其他维度距离都很近的情况下距离计算
大多数情况都用欧氏距离
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

1.1. k-means聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

解决初值敏感的算法思路: 主要思想:1)做一部分抽样,根据概率可以将原始样本稀疏化,剔除少数异常样本的影响(k-means||)选择初始簇心;2)k值从2开始,不断增加到k(二分k-means);3)对样本多的进行划分,或者对误差和SSE大的样本集继续划分二分k-means)
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
怎么缺点簇的数量k的算法思路: 聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

怎么解决大规模数据集收敛速度的算法思路:聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

实际过程中,一般用轮廓系数/api中的km.score(X) 来度量距离总和,其他的评估指标一般不用
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
2、层次聚类聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

birch: 适合大数据集聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

二、密度聚类(适用于非凸函数) 聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
任意形状的数据的聚类 聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片
聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

【聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)】聚类(划分聚类(k-means、k-means||、层次聚类)+密度聚类)
文章图片

    推荐阅读