本文概述
- 什么是聚类分析?
- 不同类型的聚类
- 不同类型的集群
文章图片
聚类分析将数据分为几组, 通常称为聚类。如果有意义的组是目标, 那么集群将捕获数据的一般信息。某些时间集群分析只是用于其他目的的有用初始阶段, 例如数据汇总。就理解或效用而言, 聚类分析在诸如生物学, 心理学, 统计学, 模式识别机器学习和挖掘等广泛领域中一直发挥着重要作用。
什么是聚类分析? 聚类分析是组的数据对象, 主要取决于数据中找到的信息。它定义了对象及其关系。一个组内的对象的目标与其他组的对象相似或不同。
给定的图1说明了在同一点集合上进行聚类的不同方式。
在各种应用中, 没有简要定义集群的概念。为了更好地理解选择组的挑战, 图1展示了二十个点以及将它们分为几类的三种不同方式。标记的设计显示了群集成员。这些图分别将数据分为两个部分和六个部分。将两个更重要的群集中的每个群集划分为三个子群集可能是人类视觉系统的产物。声明来自四个聚类的点可能不合逻辑。该图表示群集的含义不正确。集群的最佳定义取决于数据的性质和结果。
聚类分析类似于用于将数据对象划分为组的其他方法。例如, 聚类可以视为分类的一种形式。它使用分类构造对象的标签, 即, 使用从具有已知类标签的对象开发的模型, 可以为新的未标签对象提供类标签。因此, 聚类分析有时被定义为无监督分类。如果在没有数据挖掘能力的情况下使用分类一词, 那么它通常是指监督分类。
术语分割和分区通常用作聚类的同义词。这些术语通常用于超出聚类分析传统界限的技术。例如, 术语“分区”通常用于与将图分成子图并且未连接到“聚类”的技术相关联。分段通常使用简单的方法将数据分为几组。例如, 可以根据像素频率和颜色将图像分为多个部分, 也可以根据人们的年收入将人们分为不同的组。但是, 图划分和市场细分中的一些工作与聚类分析有关。
不同类型的聚类 整个集群通常称为集群。在这里, 我们区分了不同种类的聚类, 例如, 分层(嵌套)与分区(未嵌套), 互斥与重叠与模糊以及完全与部分聚类。
- 分层与分区
如果我们允许集群具有子集群, 那么我们将获得分层集群, 这是一组嵌套的集群, 它们被组织为一棵树。树中的每个节点(集群)(非叶节点)是其子集群的关联, 树的根是集群, 包括所有对象。通常, 树的叶子是各个数据对象的各个群集。如果我们允许集群嵌套, 则图1(a)的一个澄清之处在于它具有两个子集群, 图1(b)对此进行了说明, 每个子集群都有三个子集群, 如图1(d)所示。当按特定顺序获取群集时, 它们也出现在图1(a-d)中, 也来自分层(嵌套)群集, 每个级别分别有1、2、4和6个群集。最后, 分层聚类可以看作是分区聚类的一种安排, 并且可以通过采用该序列的任何成员来获取分区聚类, 这意味着通过在特定级别切割层次树。
- 排他, 重叠, 模糊
在模糊聚类中, 每个对象都属于具有权属权重介于0和1之间的每个聚类。换句话说, 聚类被视为模糊集。数学上, 模糊集定义为其中一个对象与权重在0到1之间的任何集相关联的模糊集。在模糊聚类中, 我们通常设置附加约束, 并且每个对象的权重之和必须相等到1。类似, 概率聚类系统计算每个点属于一个聚类的概率, 并且这些概率之和必须为1。由于任何对象的隶属权重或概率之和为1, 因此模糊或概率聚类无法解决实际的多类情??况。
完全与部分
完整的群集将每个对象分配给群集, 而部分群集则不会。部分聚类的灵感在于数据集中的一些对象可能不属于不同的组。在大多数情况下, 数据集中的对象可能会产生异常值, 噪声或“无用的背景”。例如, 某些新闻头条新闻可能具有一个共同的主题, 例如“全球工业生产下降1.1%”, 而不同的新闻则更为频繁或独一无二。因此, 要找到上个月故事中的重要主题, 我们可能只需要搜索与一个共同主题紧密相关的文档簇。在其他情况下, 则需要完整的对象群集。例如, 利用群集来整理文档进行浏览的应用程序需要确保可以浏览所有文档。
不同类型的集群 将地址聚类以发现有用的对象组(集群), 其中数据分析的目标表征实用程序。当然, 在实践中, 有很多关于集群的概念可以证明其实用性。为了直观地显示这些类型的聚类之间的差异, 我们利用二维点, 如图所示, 此处描述的聚类类型对于不同种类的数据同样有效。
- 分离良好的群集
文章图片
- 基于原型的集群
文章图片
- 基于图的集群
其他种类的基于图的群集也是可能的。一种这样的方式将集群描述为集团。 “集团”是图中彼此完全关联的一组节点。特别是, 我们根据对象之间的距离添加对象之间的连接。当一组对象形成一个集团时, 就会生成一个簇。就像基于原型的群集一样, 此类群集通常是球形的。
文章图片
- 基于密度的集群
文章图片
- 共享财产或概念集群
文章图片
我们可以将集群描述为一组提供某些属性的对象。基于中心的群集中的对象共享以下属性:它们都最接近相似的质心或质心。但是, 共享财产方法还包含了新类型的群集。考虑图中给出的集群。三角形区域(群集)紧挨着矩形区域, 并且有两个相互缠绕的圆(群集)。在这两种情况下, 聚类算法都需要特定的聚类概念才能有效地识别这些聚类。发现此类群集的方法称为概念性群集。
推荐阅读
- 医疗保健中的数据挖掘
- 12个最佳Jupyter Notebook扩展合集(哪个更好())
- 9个最佳JupyterLab扩展合集(选择哪个比较好())
- 17个最佳PhpStorm插件合集推荐(你最喜欢哪个())
- Webstorm前25个最佳Javascript插件合集(哪个是最好的())
- 14个最佳Eclipse IDE插件合集(哪个最好用())
- 排名前21的最佳Atom软件包合集(哪个最好())
- 17个最佳Android Studio插件合集(哪个最好用())
- 15个最佳Vim插件合集(哪个插件最好用())