数据分析|富集分析GO KEGG GSEA的区别

GO和KEGG是基于不同的分类思想而储存的基因相关功能的数据库,富集分析就是一个把这些功能进行进行整合计算的算法,GO富集,就是研究基因的本质的,从三个层面,分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。如一个基因,她的分子功能可能是具有催化活性,她的细胞组分,也就是其在细胞中定位为细胞膜,参与的生物过程为蛋白质运输过程,这就是这个基因按照三种不同的分类方式进行的定义。
KEGG和GO的区别主要体现在,GO的三个层面彼此之间是没有任何联系的,KEGG不仅有基因集,还定义了基因和代谢物之间的复杂的相互关系,所以才能叫做pathway,与GO中的生物过程有点类似。
GO数据库的基础就是一个一个的GO term,它们是树状的结构,存在冗余。GO database的root node有三个,分别为BP、CC、MF。KEGG就是人工注释的一张又一张代谢通路,是网状的。GO term是一个纯粹的基因集,没有定义里面基因的相互关系;KEGG不仅有基因集,还定义了基因和代谢物之间的复杂的相互关系,所以才能叫做pathway。论相似性,从纯基因集的角度,GO的BP和KEGG有较高的相似性。GO一般用来找差异基因引起的功能改变,KEGG则寻找通路上的影响。
但无论是GO还是KEGG,他们的富集方法都基于统计学上的超几何分布。假设有m个背景基因,背景基因中某一通路pathway中注释的基因有n个,而我的基因集中有k个基因,有l个富集到了该通路中,简单来讲就是比较l/k是否显著高于n/m,算出一个p值来判断这种事情到底是不是偶然发生的,如果是,那这个不能说是富集到了,因为只是偶然的巧合,如果不是,即是特意富集到某个通路当中去了。
而基因集富集分析(GSEA) 与GO(Gene Ontology)和KEGG pathway分析相比,GSEA分析的主要优势在于:
一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,就比如规定差异表达基因筛选的差异倍数阈值是0.1和0.25,这忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。GSEA不需要划定阈值,他是根据基因的表达量对基因进行了排序,然后去和GSEA中数据库比对,给每一基因打一个ES富集分数,GSEA中与GO,KEGG另一点不同的即是,GSEA需要输入基因的表达量,而另两个只需要输入基因列表即可。
GSEA的原理:
把自己测出来的差异基因的排序列表称为目标基因列表L,把根据先验知识预先定义的基因集称为功能基因集S。把这个基因集中的成员称为s。
GSEA的运行原理就是判断功能基因集S里面的成员s在目标基因列表L里面是随机分布的,还是主要聚集在目标基因列表L的顶部或底部。如果我们研究的功能基因集S的成员显著聚集在目标基因列表L的顶部或底部,就是我们要关注的基因集。
就比如这张图目标基因基因列表L就是C2和C4中所有差异表达基因,功能基因S就是C2和C4中所有和细胞周期有关的基因,GSEA得到的结果重要的是富集得分,也就是这个图里面的蓝线。
Enrichment Score,即ES,中文翻译为富集得分。它反应的是基因集成员s在目标基因列表L端富集的程度,计算方法是,从目标基因列表L的第一个基因开始,计算一个累计统计值。当遇到一个落在功能基因集S里面的基因,则增加统计值。遇到一个不在功能基因集S里面的基因,则降低统计值。每一步统计值增加或减少的幅度与基因的表达变化程度是相关的。富集得分ES是从没有遇到时候开始计算,直到最大值。正值ES表示基因集在列表的顶部富集,负值ES表示基因集在列表的底部富集。
数据分析|富集分析GO KEGG GSEA的区别
文章图片

所以我们就知道了,这几张图里面,功能基因都是C4细胞簇中的。
中间条形码似的黑线是gene set里面的基因在背景基因里的位置,每条竖线代表该通路下的基因,"hit"就会有条黑线,”miss"就没有黑线。
【数据分析|富集分析GO KEGG GSEA的区别】蝴蝶图:当用功能基因集S从上到下,遍历排序好的目标基因列表L时,此时最下面的绿色区域就是不同基因的排序结果,它与分组情况相关,排序的结果从正值到负值进行排列,正值是与第1个分组有关(C2),负值与第2个分组有关(C4),绿色区域高低和基因的表达水平相关。

    推荐阅读