Tableau中的聚类分析 _数据科学

本文概述

K均值聚类
格式化数据源
根据世界经济指标数据创建集群
描述集群
总结

数据可能很复杂, 乏味, 有时发现模式可能很困难。考虑一种情况, 你有一些属于公司的销售数据。你想发现一种有关消费者消费能力的模式。如果你可以发现数据中不同的组或关联, 则可以相应地定位不同的组以获取最大的销售额。这种直觉背后的基本思想称为聚类, Tableau具有一个固有功能, 可以根据某些属性自动将相似的数据点聚类。让我们探索Tableau的此功能, 看看如何将聚类应用于实际数据集。
K均值聚类聚类(也称为聚类分析)是一种无监督的机器学习算法, 它倾向于基于相似性度量将相似的项目组合在一起。
Tableau在后台使用K均值聚类算法。 K均值是将数据分为K个群集并属于基于质心的群集的一种群集技术。在K均值聚类中, 对于给定数目的聚类k, 该算法将数据集拆分为k个聚类, 其中每个聚类都有一个质心, 质心的计算方法是该聚类中所有点的平均值。然后, 根据数据点与质心的距离对数据点进行聚类。
这是有关srcmini的两个很棒的教程, 详细介绍了群集的概念：

使用scikit-learn在Python中进行K-Means聚类
R教程中的K均值聚类

如果你想了解有关机器学习中的集群的更多信息, 请参加srcmini的Python无监督学习或带有SciPy的集群方法课程。
下图将K -Means算法可视化以更好地理解。最初, 我们随机定义4个质心点。然后, K均值算法将每个数据点分配给其最近的聚类(叉)。当所有数据点的平均值都改变时, 质心将移动到新位置, 并且重复整个过程, 直到我们观察到质心的位置不再发生变化为止。

文章图片
可视化K-Means算法
Tableau中的聚类标准
了解集群方法后, 现在让我们了解Tableau是如何完成集群的。 Tableau使用Calinski-Harabasz准则评估群集质量。这是Calinski-Harabasz准则的数学解释：

文章图片
资源
“ 其中SSB是总体集群间方差, SSW是总体集群内方差, k是集群数, 而N是观察数” (来源)。
该比率给出确定簇的内聚性的值。因此, 该值越高, 群集之间的距离越近, 群集之间的距离就越小。
先决条件
【Tableau中的聚类分析】本文假定你对Tableau有所了解。如果你是一个完整的初学者, 建议你阅读以下有关srcmini的文章, 该文章是出色的入门。
使用Tableau进行数据可视化
Tableau环境
在本教程中, 我们将使用Tableau Public, 这是Tableau的绝对免费产品。从官方网站下载Tableau Public版本。请按照安装说明进行操作, 并且如果在单击Tableau图标时出现以下屏幕, 则可以执行。

文章图片
连接到数据集
我们将在本文中使用的数据集称为” 世界经济指标” 数据集。该数据集包括一些推动经济发展的重要指标, 例如各国的预期寿命, 经商难易程度, 人口等。它是从联合国获得的。可以从此处访问数据集。

将数据集下载到你的系统上。
从计算机将数据导入到Tableau工作区中。使用” 工作表” 选项卡下的” 数据解释器” 纠正和重新对齐数据。

格式化数据源转到工作表, 然后浏览” 度量和尺寸” 选项卡。 “ 度量” 选项卡下有很多功能, 可以将其合并为一个类别。这也将有助于更好地表示所有数据字段。

选择” 营业税率” , “ 开始营业的天数” , “ 营业便利性” , “ 营业税和贷款利息小时数” > ” 创建文件夹” 。

文章图片

将文件夹命名为Business, 现在所有上述字段都包含在此特定文件夹中。

文章图片

同样, 为” 发展” , “ 健康” 和” 人口” 创建文件夹。另外, 分别添加以下字段。格式化后, “ 度量” 选项卡如下所示：

文章图片
根据世界经济指标数据创建集群聚类有助于发现数据集中的模式。假设你是某旅游公司的分析师。由于世界各地预期寿命的增加, 高级旅游业激增。现在, 老年人更加活跃, 并且对旅行和游览世界更加感兴趣。你的公司正在尝试从这种现象中获利, 你的工作是使用” 世界指标” 样本数据来识别有足够合适客户类型的国家/地区。聚类是可以帮助我们识别这类国家的工具。
确定高级旅游成功率高的国家
现在, 我们完成各个步骤以对数据执行聚类分析。

在” 数据” 窗格下的” 维度” 中双击” 国家/地区” 。 Tableau创建一个地图视图, 并用实心圆表示每个国家/地区。在” 标记” 卡上, 将标记类型更改为” 地图” ,

文章图片
确定聚类变量
聚类的下一步是确定将在聚类算法中使用的变量。在Tableau中, 变量类似于字段。给出理想聚类的最佳变量并没有唯一的答案, 但是你可以尝试使用多个变量来查看产生期望结果的变量。在我们的情况下, 让我们处理以下字段：

城市人口

城市人口是一个国家人口密度的良好指标。密度越高, 可用的商机就越多。

人口65+

65岁以上的人口表示老年人, 这也是我们的目标人群。

女性预期寿命, 男性预期寿命

预期寿命较高的国家表示那里的人寿命更长, 并且对旅行更加感兴趣。

人均旅游

该字段不存在, 可以使用” 旅游出站” 和” 人口总数” 字段将其创建为计算字段, 如下所示：
人均旅游人数= SUM([旅游出站])/ SUM([人口总数])

文章图片
旅游出境代表一个国家的人每年在国际旅行上花费的金钱(美元)。为了获得平均值, 我们需要将该字段除以每个国家的人口。
将所选字段添加到视图
在继续之前, 我们需要将默认聚合从SUM更改为AVERAGE。 Tableau使汇总度量或维度成为可能, 尽管汇总度量更为常见。每当我们向视图添加度量时, 默认情况下都会将聚合应用于该度量。需要应用的聚合类型取决于视图的上下文。

文章图片
更改所有选定字段的聚合, 然后将其拖到” 标记” 卡上的” 详细信息” , 如下所示：

文章图片
聚类
Tableau中的群集是一个简单的拖放过程。以下步骤概述了群集过程：

单击” 分析窗格” , 然后将” 群集” 拖动到视图上, Tableau会自动将数据群集。

文章图片

尽管Tableau可以自动确定要创建的群集数量, 但我们也可以控制群集的数量以及用于计算群集的变量。只需在框中拖动一个字段以将其包括在聚类算法中, 或将其拖出以将其排除。

文章图片

我们将使用4个群集和默认变量, 以进行更好的分析。请注意, 一些国家/地区不属于任何类别, 因此被标记为未分组。

文章图片

该簇被创建为新药丸, 并且可以在颜色架子上看到。将此药丸拖到” 数据窗格” 上, 以保存为一组。

文章图片
因此, 在这里, 我们根据选择的措施对国家进行了分类。但是, 我们如何从这些结果中弄清楚, 又如何根据集群做出业务决策？下一节将解决这些问题。
描述集群单击标记卡中的” 群集” 字段, 然后单击” 描述群集” 选项。

文章图片
这将显示一个文档, 其中包含有关群集的详细说明。该文档中有两个选项卡：
摘要
这给出了结果的汇总以及每个聚类的每个变量的平均值。

文章图片
根据以上结果, 我们可以推断出集群3具有：

男性和女性的最高预期寿命
人均旅游总人数最高
最高城市人口

这意味着它有一个富裕的城市人口, 具有较高的预期寿命, 因此对于高级旅游业来说似乎是一个很好的市场。让我们看看该集群中包括哪些国家。

文章图片
楷模
“ 模型” 标签显示所有变量/字段的平均值的各种统计值, 并显示其统计意义。

文章图片
因此, 作为分析师, 你可以将此列表呈现给销售团队, 以便他们可以专注于这些潜在客户。集群为我们提供了深刻的见识。从这里, 你可以尝试不同的字段, 设置人口或收入的阈值等。有许多方法可以对数据进行聚类, 但是基本原理保持不变。
总结在本文中, 我们学习了如何使用简单的拖放机制对Tableau中的给定数据集执行聚类分析。聚类是一种有价值的工具, 当与Tableau结合使用时, 聚类可以使分析人员掌握统计分析技术的功能。
参考文献
文件表