本文概述
- K均值聚类
- 格式化数据源
- 根据世界经济指标数据创建集群
- 描述集群
- 总结
K均值聚类 聚类(也称为聚类分析)是一种无监督的机器学习算法, 它倾向于基于相似性度量将相似的项目组合在一起。
Tableau在后台使用K均值聚类算法。 K均值是将数据分为K个群集并属于基于质心的群集的一种群集技术。在K均值聚类中, 对于给定数目的聚类k, 该算法将数据集拆分为k个聚类, 其中每个聚类都有一个质心, 质心的计算方法是该聚类中所有点的平均值。然后, 根据数据点与质心的距离对数据点进行聚类。
这是有关srcmini的两个很棒的教程, 详细介绍了群集的概念:
- 使用scikit-learn在Python中进行K-Means聚类
- R教程中的K均值聚类
下图将K -Means算法可视化以更好地理解。最初, 我们随机定义4个质心点。然后, K均值算法将每个数据点分配给其最近的聚类(叉)。当所有数据点的平均值都改变时, 质心将移动到新位置, 并且重复整个过程, 直到我们观察到质心的位置不再发生变化为止。
文章图片
可视化K-Means算法
Tableau中的聚类标准
了解集群方法后, 现在让我们了解Tableau是如何完成集群的。 Tableau使用Calinski-Harabasz准则评估群集质量。这是Calinski-Harabasz准则的数学解释:
文章图片
资源
“ 其中SSB是总体集群间方差, SSW是总体集群内方差, k是集群数, 而N是观察数” (来源)。
该比率给出确定簇的内聚性的值。因此, 该值越高, 群集之间的距离越近, 群集之间的距离就越小。
先决条件
【Tableau中的聚类分析】本文假定你对Tableau有所了解。如果你是一个完整的初学者, 建议你阅读以下有关srcmini的文章, 该文章是出色的入门。
使用Tableau进行数据可视化
Tableau环境
在本教程中, 我们将使用Tableau Public, 这是Tableau的绝对免费产品。从官方网站下载Tableau Public版本。请按照安装说明进行操作, 并且如果在单击Tableau图标时出现以下屏幕, 则可以执行。
文章图片
连接到数据集
我们将在本文中使用的数据集称为” 世界经济指标” 数据集。该数据集包括一些推动经济发展的重要指标, 例如各国的预期寿命, 经商难易程度, 人口等。它是从联合国获得的。可以从此处访问数据集。
- 将数据集下载到你的系统上。
- 从计算机将数据导入到Tableau工作区中。使用” 工作表” 选项卡下的” 数据解释器” 纠正和重新对齐数据。
- 选择” 营业税率” , “ 开始营业的天数” , “ 营业便利性” , “ 营业税和贷款利息小时数” > ” 创建文件夹” 。
文章图片
- 将文件夹命名为Business, 现在所有上述字段都包含在此特定文件夹中。
文章图片
- 同样, 为” 发展” , “ 健康” 和” 人口” 创建文件夹。另外, 分别添加以下字段。格式化后, “ 度量” 选项卡如下所示:
文章图片
根据世界经济指标数据创建集群 聚类有助于发现数据集中的模式。假设你是某旅游公司的分析师。由于世界各地预期寿命的增加, 高级旅游业激增。现在, 老年人更加活跃, 并且对旅行和游览世界更加感兴趣。你的公司正在尝试从这种现象中获利, 你的工作是使用” 世界指标” 样本数据来识别有足够合适客户类型的国家/地区。聚类是可以帮助我们识别这类国家的工具。
确定高级旅游成功率高的国家
现在, 我们完成各个步骤以对数据执行聚类分析。
- 在” 数据” 窗格下的” 维度” 中双击” 国家/地区” 。 Tableau创建一个地图视图, 并用实心圆表示每个国家/地区。在” 标记” 卡上, 将标记类型更改为” 地图” ,
文章图片
确定聚类变量
聚类的下一步是确定将在聚类算法中使用的变量。在Tableau中, 变量类似于字段。给出理想聚类的最佳变量并没有唯一的答案, 但是你可以尝试使用多个变量来查看产生期望结果的变量。在我们的情况下, 让我们处理以下字段:
- 城市人口
- 人口65+
- 女性预期寿命, 男性预期寿命
- 人均旅游
人均旅游人数= SUM([旅游出站])/ SUM([人口总数])
文章图片
旅游出境代表一个国家的人每年在国际旅行上花费的金钱(美元)。为了获得平均值, 我们需要将该字段除以每个国家的人口。
将所选字段添加到视图
在继续之前, 我们需要将默认聚合从SUM更改为AVERAGE。 Tableau使汇总度量或维度成为可能, 尽管汇总度量更为常见。每当我们向视图添加度量时, 默认情况下都会将聚合应用于该度量。需要应用的聚合类型取决于视图的上下文。
文章图片
更改所有选定字段的聚合, 然后将其拖到” 标记” 卡上的” 详细信息” , 如下所示:
文章图片
聚类
Tableau中的群集是一个简单的拖放过程。以下步骤概述了群集过程:
- 单击” 分析窗格” , 然后将” 群集” 拖动到视图上, Tableau会自动将数据群集。
文章图片
- 尽管Tableau可以自动确定要创建的群集数量, 但我们也可以控制群集的数量以及用于计算群集的变量。只需在框中拖动一个字段以将其包括在聚类算法中, 或将其拖出以将其排除。
文章图片
- 我们将使用4个群集和默认变量, 以进行更好的分析。请注意, 一些国家/地区不属于任何类别, 因此被标记为未分组。
文章图片
- 该簇被创建为新药丸, 并且可以在颜色架子上看到。将此药丸拖到” 数据窗格” 上, 以保存为一组。
文章图片
因此, 在这里, 我们根据选择的措施对国家进行了分类。但是, 我们如何从这些结果中弄清楚, 又如何根据集群做出业务决策?下一节将解决这些问题。
描述集群 单击标记卡中的” 群集” 字段, 然后单击” 描述群集” 选项。
文章图片
这将显示一个文档, 其中包含有关群集的详细说明。该文档中有两个选项卡:
摘要
这给出了结果的汇总以及每个聚类的每个变量的平均值。
文章图片
根据以上结果, 我们可以推断出集群3具有:
- 男性和女性的最高预期寿命
- 人均旅游总人数最高
- 最高城市人口
文章图片
楷模
“ 模型” 标签显示所有变量/字段的平均值的各种统计值, 并显示其统计意义。
文章图片
因此, 作为分析师, 你可以将此列表呈现给销售团队, 以便他们可以专注于这些潜在客户。集群为我们提供了深刻的见识。从这里, 你可以尝试不同的字段, 设置人口或收入的阈值等。有许多方法可以对数据进行聚类, 但是基本原理保持不变。
总结 在本文中, 我们学习了如何使用简单的拖放机制对Tableau中的给定数据集执行聚类分析。聚类是一种有价值的工具, 当与Tableau结合使用时, 聚类可以使分析人员掌握统计分析技术的功能。
参考文献
文件表
推荐阅读
- 在Python中使用星号
- Tableau中的象限分析
- 2020年的顶级Python IDE合集热门推荐
- Python中的f字符串格式
- 电子表格线性编程
- Appium新版本不再支持ByName定位了怎么办
- Appium+Java搭建环境之踩过的坑
- 1_1.7_hello_android
- Android系统备忘1