包含高斯函数python的词条 _计算题

[译] 高斯混合模型 --- python教程本文翻译自
上一节中探讨的k-means聚类模型简单易懂，但其简单性导致其应用中存在实际挑战。具体而言，k-means的非概率特性及简单地计算点与类蔟中心的欧式距离来判定归属，会导致其在许多真实的场景中性能较差。本节，我们将探讨高斯混合模型(GMMs) ，其可以看成k-means的延伸，更可以看成一个强有力的估计工具，而不仅仅是聚类。
我们将以一个标准的import开始
我们看下k-means的缺陷，思考下如何提高聚类模型。正如上一节所示，给定简单，易于分类的数据， k-means能找到合适的聚类结果。
举例而言，假设我们有些简单的数据点，k-means算法能以某种方式很快地将它们聚类，跟我们肉眼分辨的结果很接近：
从直观的角度来看，我可能期望聚类分配时，某些点比其他的更确定：举例而言，中间两个聚类之间似乎存在非常轻微的重叠，这样我们可能对这些数据点的分配没有完全的信心。不幸的是，k-means模型没有聚类分配的概率或不确定性的内在度量（尽管可能使用bootstrap 的方式来估计这种不确定性）。为此，我们必须考虑泛化这种模型。
k-means模型的一种理解思路是，它在每个类蔟的中心放置了一个圈（或者，更高维度超球面) ，其半径由聚类中最远的点确定。该半径充当训练集中聚类分配的一个硬截断：任何圈外的数据点不被视为该类的成员。我们可以使用以下函数可视化这个聚类模型：
观察k-means的一个重要发现，这些聚类模式必须是圆形的。k-means没有内置的方法来计算椭圆形或椭圆形的簇。因此，举例而言，假设我们将相同的数据点作变换，这种聚类分配方式最终变得混乱：
高斯混合模型（GMM）试图找到一个多维高斯概率分布的混合，以模拟任何输入数据集。在最简单的情况下， GMM可用于以与k-means相同的方式聚类。
但因为GMM包含概率模型，因此可以找到聚类分配的概率方式 - 在Scikit-Learn中，通过调用predict_proba方法实现。它将返回一个大小为[n_samples, n_clusters]的矩阵，用于衡量每个点属于给定类别的概率：
我们可以可视化这种不确定性，比如每个点的大小与预测的确定性成比例；如下图，我们可以看到正是群集之间边界处的点反映了群集分配的不确定性：
本质上说，高斯混合模型与k-means非常相似：它使用期望-最大化的方式，定性地执行以下操作：
有了这个，我们可以看看四成分的GMM为我们的初始数据提供了什么：
同样，我们可以使用GMM方法来拟合我们的拉伸数据集；允许full的协方差，该模型甚至可以适应非常椭圆形，伸展的聚类模式：
这清楚地表明GMM解决了以前遇到的k-means的两个主要实际问题。
如果看了之前拟合的细节，你将看到covariance_type选项在每个中都设置不同。该超参数控制每个类簇的形状的自由度；对于任意给定的问题，必须仔细设置。默认值为covariance_type =“diag” ，这意味着可以独立设置沿每个维度的类蔟大小，并将得到的椭圆约束为与轴对齐。一个稍微简单和快速的模型是covariance_type =“spherical”，它约束了类簇的形状，使得所有维度都相等。尽管它并不完全等效，其产生的聚类将具有与k均值相似的特征。更复杂且计算量更大的模型（特别是随着维数的增长）是使用covariance_type =“full”，这允许将每个簇建模为具有任意方向的椭圆。
对于一个类蔟，下图我们可以看到这三个选项的可视化表示：

包含高斯函数python的词条

推荐阅读

构成职务侵占罪会如何追究责任?

红梅树修剪时间和方法刚买的红梅盆栽养殖方法

佳能单反p档操作佳能p档怎么使用

给我查一下一月份哪天日子好查一下日子

孤独就像烧开的水壶孤独水壶是什么意思

美的随风行美的随风行移动空调不制冷

出远门核酸检测提前几天做

单反相机与数码相机的区别有哪些？数码相机和单反相机的区别

济宁什么情况能带押过户？

《暗黑破坏神3：夺魂之镰》圣教军FARM练级实用心得

新冠疫苗|普通人还有多久能接种新冠疫苗？最新回应来了

春笋怎么保存一周春笋保存方法家庭

专家解读：个人医保账户里的钱为何少了？

上古卷轴5天际怎么玩_玩法大全分享

慢跑可以练出腹肌吗

idea是用来干什么的，idea后面加是什么意思

土豆粉一包多少钱纯土豆粉条多少钱一斤

韭菜与鸡肉相克吗

投稿|营收增长难掩资本市场落寞：腾讯音乐“押宝”元宇宙？

小耳朵奶茶获得教程小耳朵奶茶活动什么时候结束