基因芯片数据处理聚类分析及其结果解读过程中应注意那些问题?

样本均值的标准化【肿瘤基因 芯片基于类均值的数据的一种标准化方法】摘要:本文分析了肿瘤基因 芯片中常用标准化方法造成错误分类的原因,提出了基于类均值的标准化方法 。该方法对基因的表达谱进行了两个方向的标准化,标准化过程与聚类的过程交织在一起,用聚类的结果校正参考表达水平,选取了5组肿瘤基因-的表达谱,使用分层聚类和K-means 聚类算法分析和比较基因的表达数据,这两种算法通常分别在不同的方差水平上标准化和基于类均值标准化,实验结果表明,基于类均值的标准化方法能有效改善肿瘤 。
【基因芯片数据处理聚类分析及其结果解读过程中应注意那些问题?】
1、样本均值标准化【一种基于类均值的肿瘤 基因 芯片数据的标准化方法】摘要:分析了tumor基因芯片中常用标准化方法造成误分类的原因,提出了一种基于类均值的标准化方法,对基因的表达谱进行双向标准化,并将标准化过程与相结合 。使用聚类的结果来校正参考表达水平,选择五组肿瘤-4芯片数据 。使用分层聚类和K-means 聚类算法分析和比较基因的表达数据,这两种算法通常分别在不同的方差水平上标准化和基于类均值标准化 。实验结果表明 , 基于类均值的标准化方法能有效改善肿瘤 。

2、因子分析常见问题汇总,你想知道的都在这里以SPSSAU系统为例,总结了因子分析中的常见问题 。①问题1:提取因子数提取因子数是一个综合的选择过程 。默认情况下,“特征根大于1”作为因子提取标准 。特征根不是唯一的标准 。除了这个特征根,还可以通过累积方差贡献率、砾石图等指标综合判断 。如果分析前有预期的维度(因子)划分,也可以在分析时主动设置提取因子的个数 , 然后根据上述指标进行调整 。

用[一般方法]和[相关性]得到相关矩阵 。③问题3:因素与分析项目对应关系不一致如何处理?一般有三种情况:第一种是一个分析项目对应多个因素;该项目无法分类;第二种是项目与对应因子存在严重偏差;第三是物品在各因子下的负载系数值或通用性很低 。解决方案:第一种情况一般可以接受 。如果后两种情况出现在其他项中,应先处理后两个问题,删除该项后再重新分析 。

    推荐阅读