不用r语言做go富集 r语言没有这个数据集

R语言:clusterProfiler进行GO富集分析和Gene_ID转换 ID转换用到的是 bitr() 函数,bitr()的使用方法:
org.Hs.eg.db包含有多种gene_name的类型
keytypes() :keytypes(x),查看注释包中可以使用的类型
columns() :类似于keytypes() , 针对org.Hs.eg.db两个函数返回值一致
select() :select(x, keys, columns, keytype, ...) eg.
函数enrichGO()进行GO富集分析,enrichGO()的使用方法:
举例:
「GO富集分析」从原理到实践 ~ 零基础掌握原本 , 我并无写这一稿件的想法 。主要原因有二:
如果要找合理解释,那么针对第一点,就是每天仍然有大量新接触生信数据分析的朋友;针对第二点 , ......在前两天我推的文稿《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》中,评论区答应了下,阅读过5000,那就写一写富集分析 。于是,如果不写,总是不对 。如果要写,只能现在写 。毕竟有些事情,现在不做,以后真的不会做 。
对于这一块 , 完全陌生的朋友,尤其是不少生物学背景朋友,有必要温习一下数理统计基础 。这一稿件只做原理最简单的但使用最广泛其速度最快的Over-Represence Analysis模式的富集分析讲演 。其他模式 , 不涉及 。
回到主题,先举个经典的抽球例子:
小红小绿小蓝三个人自称有超能力,可以用手摸摸球就分辨出黑球白球,于是我们找来黑袋子,放100个球,其中20个白球80个黑球,让三人分别无放回地抽取 。
小红随机抽出来10个球,其中2个白球8个黑球,情况即,
抽球中白球比例与背景白球比例完全一致 , 说明小红抽球结果随机 。
球放回去,小绿来抽球,抽出来的10个球,其中3个白球7个黑球 , 情况即,
这是经典的抽球案例 , 抽取到的白球个数的概率分布为超几何分布 。基于此,我们可以简单计算抽取到比小绿抽取到球个数(或更多即更极端)的概率如何,在 R语言中计算,即
而对于小蓝的情况,那么概率如何?
在 TBtools 中也可以计算 , 只是写法有点区别
可以看到,尽管这只是一次抽球,小绿抽球中白球比例(或更极端情况)出现的概率是31.88%+,还是挺高的,于是我们有较高的把握说 , 小绿嘛,只是走了狗屎运 。相反 , 小蓝抽球中白球比例或更极端情况出现的概率几乎为 0  , 我们几乎没啥把握说,小蓝走狗屎运....换句话说 , 我们有理由相信,或许小蓝真有抽白球的超能力.....
说了这么多,那么跟基因集合富集分析有啥关系?....基因集合功能富集分析 。那么我们就需要有一个基因集合(如差异表达基因集合或ChIP-seq的Peaks或GWAS定位的系列区间),还有一个功能标签(如 生长素信号转导相关 ) 。于是黑白球案例可以简单调整一下 。假定现在这个物种一共有100个基因,其中20个基因与生长素信号转导相关,80个没有注释到与生长素信号转导相关(换句话说,约等于无关),我们做了对植株做了处理,和CK分别测定转录表达谱,通过差异表达分析 , 鉴定到10个差异表达基因 , 其中2个与生长素信号转导相关 , 而另外8个则没注释到生长素信号转导相关,简单画一下,即
好,剩下的两个就不替换了 。整体上,ORA模式的富集分析,本身就是经典的抽球案例,感兴趣的自行替换就可以了 。
基本原理,相信都搞清楚了 。不过还是有两三点需要注意:
具体如何做物种所有基因的背景注释,请参考前述推文《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》 。

推荐阅读