R语言DESeq2基因差异表达分析 经过表达定量后,我们已经得到了基因的表达量矩阵 , 差异表达分析通常是RNA-seq分析的第一步 。
差异基因表达分析通常都是在R中,常用的有DESeq2 , edgeR,limma等几种 , 这次主要介绍用DESeq2来进行差异表达分析 。
需要准备的数据:基因表达定量矩阵(counts)及分组文件
安装
使用
R语言GEO数据挖掘:步骤三:进行基因差异分析用limma包,这里注意,limma包是对基因芯片表达矩阵的分析,不能对逆转录RNAseq表达矩阵进行分析(因为数据特征不同),RNAseq需要用另一种方法
解读此表
但是上面的用法做不到随心所欲的指定任意两组进行比较,所有还有下一种方法
处理好了分组信息,再自定义比较元素
自定义函数进行比较
热土和火山图都是傻瓜式的,只要的前面得出的deg数据(也就是基因差异表达数据)是正确的
R语言筛选差异基因自变量量的筛选是根据其卡方显著性程度不断自动生成父节点和子节点,卡方显著性越高,越先成为预测根结点的变量(建模需要的变量),程序自动归并预测变量的不同类
R语言:clusterProfiler进行GO富集分析和Gene_ID转换 ID转换用到的是 bitr() 函数,bitr()的使用方法:
org.Hs.eg.db包含有多种gene_name的类型
【r语言差异基因做go geo差异表达分析r语言】keytypes() :keytypes(x) , 查看注释包中可以使用的类型
columns() :类似于keytypes(),针对org.Hs.eg.db两个函数返回值一致
select() :select(x, keys, columns, keytype, ...) eg.
函数enrichGO()进行GO富集分析,enrichGO()的使用方法:
举例:
火山图基因差异表达怎么制作'r语言今天就先来聊聊如何看差异表达基因数据,火山图,聚类图又怎么看 。1差异基因筛选方法那差异基因是如何筛选出来的呢?差异基因的筛选方法有很多,包括倍数法、T检验、F检验及SAM等 。
下面简单介绍一下GCBI上用的倍数法和SAM法 。
倍数法适用于没有生物学重复的样本,其计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因 。
SAM算法适用于有生物学重复的样本,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率 。文献中报道,相较于其他算法 , SAM算法更为稳定,筛选出的结果也更为准确 。2差异基因数据解读经过合适的差异基因方法筛选出的差异基因 , 结果一般分为两部分,数据+图形 。
数据结果展示如下图所示(两分组)众多参数中 , 重点看三个 。p-value或q-value没有做生物学重复请跳过这一步 。
p-value或q-value是统计学检验变量 , 代表差异显著性,一般p-value或q-value小于0.05代表具有显著性差异,但可根据具体情况适当调整 。
因为p-value或q-value衡量地是某个基因假阳性的概率,如果p-value或q-value越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越高 。
两者具体的计算方法具体如下:那p-value、q-value同时存在时看哪个呢?
SAM法只有q-value 。当两者同时存在时,可根据具体情况具体分析 。
差异筛选是一个典型的多重假设检验过程,对于多重假设检验 , 单次检验中差异显著基因的假阳性率(p-value较小)可能会较大,而q-value和FDR值较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性 。
即q-value相比于p-value更加严格,当差异基因结果较少时,可以退而求其次看p-value 。Fold ChangeFold Change表示实验组比上对照组的差异表达倍数,一般表达相差2倍以上是有意义的,放宽要求1.5倍或者1.2倍也可以接受 。
推荐阅读
- 视频号直播工具直播画面导播,视频号直播怎么切换画面
- sqlserverlike参数,sqlserver like in
- 战略游戏培训,战略游戏培训心得体会
- 经营院子开店游戏,布置院子的游戏
- go语言有前途么 go语言的前途
- 卧室电视怎么挂,卧室电视怎么挂墙
- 什么软件看热舞直播,什么软件看热舞直播好
- js追加到子元素,js追加属性
- 一加二分之一c语言函数 c语言一加一等于二程序