生物信息学用go语言 生物信息学用go语言吗( 三 )


(1)提供生物学功能(术语)的逻辑结构及其相互之间的关系,表现为有向无环图
(2)给特定的基因产物(蛋白质 , 非编码RNA或大分子复合体,简称为'基因')起一个特定的名字(唯一标识该基因)
Gene Ontology(GO)中最基本的概念是term 。GO里面的每一个entry都有一个唯一的数字标记,形如GO:nnnnnnn,还有一个term名,比如"cell", "fibroblast growth factor receptor binding" , 或者"signal transduction" 。每个term都属于一个ontology,总共有三个ontology,它们分别是
细胞成分:细胞的部分或其细胞外环境;
分子功能:基因产物在分子水平上的元素活性,例如结合或催化;
生物过程:具有确定开始和结束的分子事件的操作或集合,与综合生活单元的功能有关
理由一:
在基因表达谱分析中,GO常用于提供基因功能分类标签和基因功能研究的背景知识 。利用GO的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合 。
根据GO的知识体系,使用“功能类”(或者叫做“功能模块”)这一概念具有以下优点:我们认为,单个基因的表达情况的改变不足以反映特定功能/通路的整体变化情况 。因为类似人类社会的组织结构 , 生物体的功能的实现决不仅仅是依靠一两个基因功能的改变来实现的 。因此过分着重单个基因表达变化,将会在后期结果处理中严重干扰对于结果的合理分析,导致偏倚性加大,而且是无法避免的 。因此利用GO的结构体系,把参与同样功能/通路的基因进行“功能类”层面的抽象和整合,提供比基因更高一层次的抽象结论 , 对理解疾病的发病机制或药物的作用机理等更有帮助 。
但是该方法也存在一定的不足 , 由于生物体内部的调控网络可能具有“scale-free network”的特点,个别功能重要的基因(主效基因)具有“Hub节点”的重要特性,它的功能改变可能对于整个网络来说是至关重要的,在这点上,这些重要的基因又具有一定的“自私独裁”特点 。而“功能类”之观点模糊了这种差别特性,过于强调“共性”,而忽视了“个性”,这也是“功能类”的一个不足之处,这就需要结合相关的生物学知识才能够实现
理由二:
GO(gene ontology)对大家而言也许会是一个相对陌生的名词,但是它已经成为生物信息领域中一个极为重要的方法和工具,并正在逐步改变着我们对 biological data的组织和理解方式,它的存在已经大大加快了我们对所拥有的生物数据的整合和利用 , 我们应该逐步学会理解和掌握这种思想和工具 。
众所周知,sequence based biology中的核心内容即是对序列的Annotation(注释) , 其中主要包含structural annotation和functional annotation,前者涉及分析sequence在genome中的locus以及exon,intron,promoter等的location,而后者则是推断序列编码产物的功能
随着多种生物genome的相继解码 , 同时大量ESTs以及gene expression profile date的积累,使得annotation的工作量和复杂度大大增加 。然而另一方面 , 大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics) 。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题 。通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新 。一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制

推荐阅读