R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较
原文链接:http://tecdat.cn/?p=25196
目标
对“NCI60”(癌细胞系微阵列)数据使用聚类方法,目的是找出观察结果是否聚类为不同类型的癌症。K_means 和层次聚类的比较。
#数据信息dim(nata)
文章图片
nci.labs\[1:4\]
文章图片
table(ncibs)
文章图片
ncbs
文章图片
scale # 标准化变量(均值零和标准差一)。
全链接、平均链接和单链接之间的比较。
plot(hclust,ylab = "",cex=".5",col="blue") #使用全链接对观察结果进行层次聚类。
文章图片
plot(hclust,cex=".5",col="blue") #使用平均链接对观察进行分层聚类。
文章图片
par(mfrow=c(1,1))
plot(hclust,col="blue") #使用单链接对观察进行分层聚类。
文章图片
观察结果 单链接聚类倾向于产生拖尾的聚类:非常大的聚类,单个观测值一个接一个地附在其中。
另一方面,全链接和平均链接往往会产生更加平衡和有吸引力的聚类。
由于这个原因,全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起,尽管聚类并不完美。
table(hrs,ncbs)
文章图片
我们可以看到一个清晰的模式,即所有白血病细胞系都属于聚类 3,其中乳腺癌细胞分布在三个不同的聚类中。
plot(hcu)
abline
文章图片
参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。
out
文章图片
kout=kmea
table
文章图片
我们看到,获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面,其他集群不同。
结论 分层聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。
文章图片
最受欢迎的见解
1.R语言k-Shape算法股票价格时间序列聚类
2.R语言中不同类型的聚类方法比较
3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
4.r语言鸢尾花iris数据集的层次聚类
5.Python Monte Carlo K-Means聚类实战
6.用R进行网站评论文本挖掘聚类
7.用于NLP的Python:使用Keras的多标签文本LSTM神经网络
8.R语言对MNIST数据集分析 探索手写数字分类数据
【R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较】9.R语言基于Keras的小数据集深度学习图像分类
推荐阅读
- 急于表达——往往欲速则不达
- 第三节|第三节 快乐和幸福(12)
- 20170612时间和注意力开销记录
- 2.6|2.6 Photoshop操作步骤的撤消和重做 [Ps教程]
- 对称加密和非对称加密的区别
- 眼光要放高远
- 樱花雨
- 前任
- 2020-04-07vue中Axios的封装和API接口的管理
- 烦恼和幸福