科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军

蛋白质是生命的承载者,几乎支撑着生命的所有功能,细胞内发生的大部分反应都依赖于蛋白质。蛋白质的工作方式和功能取决于它独特的三维结构,也就是我们常说的“结构决定功能”。因此,了解蛋白质的三维结构,是理解生命与疾病的关键。毫不夸张地说,搞清楚了蛋白质的三维结构,就等于我们拿到了打开生命的钥匙。蛋白质折叠问题是《科学》杂志指出的人类在21世纪需要解决的125个科学前沿问题之一。通过蛋白质结构预测破译“第二遗传密码”,是生物学中心法则尚未揭示的奥妙之一,也是结构生物学面临的一项具有挑战性的重大基础性研究问题。
一直以来,X射线晶体衍射、核磁共振(NMR)以及冷冻电镜(Cryo-EM)等实验技术是获得可靠蛋白质结构的唯一途径。然而,这些实验室方法测定结构费时(数月到数年甚至几十年)、费力、烧钱。1972年,诺奖获得者Christian Anfinsen认为:“理论上,蛋白质的氨基酸序列应该完全决定其结构”。Anfinsen猜想引发了长达50年的探索,依赖计算机模拟技术,从序列出来,直接预测高精度的蛋白质的三维结构成为计算生物学和结构生物信息学领域研究人员的梦想!
1994年,John Moult教授和Krzysztof Fidelis教授等人创立了CASP,每隔两年举办一次。CASP很有特色,它选择那些最近才通过实验确定的蛋白质结构(有些结构在评估时仍在等待确定)作为团队测试其结构预测方法的对象。所有参赛者都是从氨基酸序列出发,计算和预测蛋白质的三级结构,随后由第三方独立科学家将这些预测结构拿去与实验室获得的真实蛋白结构进行比较。在评测会议召开之前,解析出的实验结构在竞赛期间保密,参赛团队不知道实验结构结果,评测科学家也不知道预测结果来在哪一支参赛团队。正是基于这种双盲测的方法,CASP才被誉为评估预测技术的金标准,被业界视为“蛋白质结构预测领域的奥林匹克竞赛”。
在学术界和工业界的共同努力下, CASP竞赛26年间全方位见证和推动了蛋白质结构预测领域的发展。根据CASP赛事规则,所有参赛方法分为自动组和人工组两类。在自动组(或称服务器组),参赛者只有72小时进行结构预测;人工组参赛者有三周时间进行结构预测,且所有自动组参赛队伍结果均已公布。这意味着自动组纯粹依赖计算机预测,人工组则综合了其他参赛团队计算机预测结果和自己的人工干预。因此,服务器组的参赛难度往往比人工组高。继2018年CASP13 AlphaFold取得重大进展之后,AlphaFold2在CASP14中取得了“划时代”的突破。在2020年十一月份的最后一天,第十四届全球蛋白质结构预测技术评估大赛(CASP14)结果揭晓,人工组中,Google DeepMind团队开发的AlphaFold2排名第一;自动组中,美国密西根大学张阳教授开发的I-TASSER服务器(参赛小组:Zhang Server)排名第一。
实际上,I-TASSER自从2006年CASP7开始,连续8届在CASP竞赛自动组中雄踞第一!I-TASSER是美国密西根大学华人教授张阳开发的蛋白质结构预测算法,截至目前统计,I-TASSER已经拥有14万以上的用户,为151个国家和地区提供了超过50万个蛋白质的结构预测服务。尤其是,早在15年前,张阳教授就在PNAS上发文,前瞻性地提出了通过已知实验数据集解决蛋白质结构预测问题理论上可能性,这一理论也被随后历届CASP赛事所验证。此外,张阳实验室开发的模板检测服务器LOMETS、CEthreader;蛋白质结构从头预测算法QUARK;蛋白质接触图预测算法TripletRes、ResPRE;同源序列收集(MSA)算法DeepMSA;蛋白质设计EvoDesign;蛋白质功能预测服务器COFACTOR等也被业界广泛使用。
一、自动组
本届CASP14中,张阳课题组参赛服务器Zhang-Server(D-I-TASSER)、QUARK(D-QUARK)、Zhang-CEthreader(DEthreader)、Zhang-TBM(LOMETS3)、Zhang_Ab_Initio(D-QUARK ab initio),蛋白质接触图预测服务器TripletRes(DeepPotential)等再次拔得头筹(见图1,2)。

科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图1. CASP14服务器组在所有蛋白上预测结果排名(前30,基于Z-score>-2.0),红色为张阳实验室服务器。排名第四的是西雅图华盛顿大学Baker团队的服务器Rosetta,随后是芝加哥大学许锦波教授的Raptor-X服务器,腾讯王晟博士的tFold服务器,南开大学杨建义教授的Yang-Server,密苏里大学程建林教授的MULTICOM等服务器。
科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图2. CASP14服务器组在最难的FM目标蛋白上的预测结果排名(前30,基于Z-score>-2.0),红色为张阳实验室服务器。
CASP14共发布了58个TBM (TBM-easy和TBM-hard)和38个FM(FM/TBM和FM)目标蛋白(即Target),其中TBM目标蛋白是指有同源模板的蛋白,FM目标蛋白是指有无法检索找到同源模板的蛋白,即困难蛋白,参赛者必须利用Ab Initio算法从头预测。在所有96个目标蛋白上,张阳教授课题组参赛的5个服务器分列1,2,3,5,11位(见图1)。尤其是在FM蛋白上,5个服务器独占服务器组前五名,优于其他工业界及学术课题组的服务器。
综合所有参赛团队的结果,今年CASP14的38个FM蛋白质,张阳教授课题组5个服务器总计贡献了19个(50%)的最优结构(图3)。其中,QUARK和Zhang-CEthreader服务器分别贡献了6个最优结构。

科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图3. CASP14的FM蛋白质中各个服务器(A)、课题组(B)贡献的最优结构的数量。
对于今年CASP14张阳教授课题组的服务器能够在FM蛋白上独占鳌头,张阳实验室郑伟博士后代表张阳教授课题组,在CASP14会议的邀请报告中给出了一下几方面的原因:
第一,引入了深度学习算法精确预测氨基酸节点之间的氢键和距离。在CASP11中张阳实验室使用了当时领先的结构片段重组装算法,但是FM蛋白的成功率只有10%左右。CASP12和13中,他们引入了深度学习算法,预测氨基酸的接触图作为折叠时的额外约束,成功率显著提升。在CASP14中,他们进一步利用深度学习预测氨基酸之间的距离和氢键,结果成功率比CASP13时提高了10%(图4)。这些深度学习算法主要是由张阳教授团队的博士生李阳开发。李阳开发的TripletRes和DeepPotential在CASP13和CASP14的接触图和距离图的评比中均名列前茅。
【科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军】
科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图4. 张阳教授课题组服务器CASP14预测结果与既往CASP(11-13)在FM蛋白上的比较(其中1个FM蛋白无法获得实验组信息)。灰柱表示平均TM-score,黑柱表示成功折叠蛋白质的数量(TM-score>0.5),白柱表示错误折叠的蛋白数量(TM-score<0.5)。TM-score是衡量两个结构相似性的标准,取值在[0,1]之间,越高表明模型越接近于真实结构。研究表明,TM-score=0.5可以作为判断预测结构和实验结构是否在是相同拓扑的一个依据。
第二,利用I-TASSER平台将穿线模板和深度学习约束有机结合。张阳团队是较早致力于结合机器学习和穿线(threading)模板信息的团队。在CASP13中,他们开发了C-I-TASSER,将I-TASSER与深度学习接触图预测结合,取得了服务器组的第一名。在CASP14中,他们进一步开发出D-I-TASSER,在蒙特卡洛模拟中引入深度学习预测的距离和氢键的约束,将FM 困难蛋白的平均TM-score提高至0.61,几乎是只用模板时的两倍。作为一个对比,如果使用业界最常用的,斯坦福大学Brunger教授开发的CNS软件,根据同样的DeepPotential约束进行折叠,预测模型的TM-score只有0.45,明显低于D-I-TASSER的预测精度,从而显示出I-TASSER平台对穿线模板和机器学习结合的重要性。

科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图5. D-I-TASSER各部分(模板、DeepPotential预测的约束、折叠引擎)的贡献示意图。
第三,使用宏基因组构造高质量的多序列比对。鉴于多序列比对(MSA)对深度学习模型的重要性,张阳团队于两年前开发了DeepMSA算法,从宏基因组(metagenome)数据库中分步提取MSA。在CASP14中,他们将其进一步拓展为DeepMSA2,加入了多个宏基因组数据库,并使用接触图打分来选择MSA。图6对比了DeepMSA2和DeepMSA在CASP14结构预测中的表现。结果显示出,使用DeepMSA2后,D-I-TASSER对某些FM蛋白的预测精度有显著提高。

科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图6. 使用更多宏基因组数据(DeepMSA2)对D-I-TASSER在FM蛋白上的贡献。DeepMSA2使用了Metaclust、BFD、Mgnify、IMG宏基因组,而DeepMSA只使用了Metaclust。
第四,新的结构域预测和组装算法对多结构域蛋白结构拆分组装。因为自然界绝大多数蛋白质都含有多个复杂的结构域,张阳团队最近开发了新的基于深度学习接触图的结构域预测程序(FUpred,郑伟博士开发),以及结构域的组装程序(DEMO,周晓根博士开发)。在CASP14中,他们先利用FUpred将序列进行结构域分割。结构预测之后,利用DEMO对最后模型进行结构域组装。图7显示了T1094的结构分割和组装的过程。该蛋白包含了不连续结构域,基于预测接触图的FUpred成功预测出两个结构域。因此,他们预测的这两个结构域的结构在服务器组表现最佳。
科研人生|I-TASSER连续八届在CASP自动组竞赛中蝉联冠军
文章图片

图7. T094,不连续结构域蛋白分析。
此外,他们在CASP14的方法流程中加入的很多新的算法,例如侧链组装算法FASPR(黄晓强博士开发)等对结构的提升也起到了重要作用。并且CASP期间整个团队的默契合作也至为重要。
尽管CASP14人工组中Google DeepMind的AlphaFold2(AF2)表现抢眼,其使用的注意力(attention)机制、端对端(end-to-end)架构、局部模型质量预测等都对结构预测有重大帮助。在今年的CASP14中,张阳教授课题组的结构预测及接触图预测服务器精度提升明显。相关服务器D-I-TASSER、D-QUARK、LOMETS3、DEthreader等将在近期公布供业界使用。
二、人工组
在CASP14人工组中,DeepMind 旗下AlphaFold2系统拿下GDT-TS打分中位数92.4的高分,就是在难度较高的困难蛋白预测环节也达到了87分的中位数。CASP竞赛创始人之一的JohnMoult教授认为,GDT-TS打分90左右的分数可认为与实验方法获得的结果难分伯仲。
蛋白质结构预测问题真的解决了吗?张阳教授给出自己的观点:“这个问题我觉得还有待商榷。首先,怎么定义蛋白质结构预测的问题?蛋白质结构预测包含三级结构和四级结构预测。其中三级结构是指单链,四级结构是指多链复合蛋白质的结构预测。这次AlphaFold2参加的主要是三级结构预测。即使是在三级结构预测,CASP评估的也只是单结构域的预测结构。自然界中一个功能蛋白质链往往也包含多个结构域,这些结构域之间有复杂的相互作用。这些结构域之间或者蛋白质链之间的相互作用都属于蛋白质结构预测的范畴,都具有重要的生物学意义。但是CASP对这种多结构域的复杂构型并没有做过多评估,主要是多年以来我们没有好的办法预测它们。所以,严格意义上讲,AlphaFold2接近于解决了单结构域的蛋白质结构预测问题,预测精度很高。很多媒体中提到它的中位数值是0.92,即大致有一半的模型是超过0.9,接近或者达到实验的精度。也就是说,还有接近一半的蛋白质预测没有达到这个精度。因此,要完全解决蛋白质结构预测的问题,仍然需要很多工作”。
张阳实验室郑伟博士后,C-I-TASSER、D-I-TASSER开发者之一,讲到:“AlphaFold2这次带来的震撼是强烈的,他们的结果很值得我们深思,但因为商业原因,他们并未透露过多的细节。目前大家猜测的注意力(attention)机制,端对端(end-to-end)架构等都是学界首先提出来的,但由于算力问题,很多优秀的想法都无法由学界团队实现。AF2依托于Google,相比于一般的学术课题组算力近乎无限。所以他们能够大规模暴力测试各种算法的极限。另外重金聘请了18位各个领域的专家共同解决一个问题这也是学术界值得思考的。AF2在100多个TPU上进行了数周的模型训练(TPU的算力及显存明显优于GPU),考虑到成功开发一个模型必定有数十数百个失败的模型在线,可以认为AlphaFold2使用了100多个TPU进行了以年为单位的测试,Goolge上TPU的使用报价100个TPU大概一个月要数十万美金,保守估计AlphaFold的开发成本在千万美金规模。另外估计他们为了在CASP14的每个蛋白上都达到极致精度,对于每个蛋白又利用10个左右的TPU进行了数周(<3周,人工组时间)的特异训练,所以估计他们每预测一个蛋白结构的成本还需另加数万到几十万美金不等。如此高昂的成本估计他们不会免费开放服务器供一般用户使用,即使开放了应该也是低精度的一般版本,不会进行目标特异的训练(如CASP14一样)。所以对于一般用户而言,各大学术课题组的服务器依旧是最优的首选,我相信学术课题组也会在将来的两年内迎头赶上。”
张阳实验室张成辛博士,DeepMSA和D-QUARK的开发者讲到:“开发AF2的Deepmind团队所拥有的人才和硬件资源,是普通的学术界课题组远远不能匹敌的,比如训练我们课题组的DeepPotential算法所能调用GPU的算力只有训练AF2的1%左右,但这并不表明Deepmind所能达到预测精度就是其它的课题组遥不可及的。实际上在两年前的CASP13以来,包括我们课题组在内的多个学术团队,都通过更优的特征生成方案、更全面的类标设计和更充分的构象采样等方式,达到甚至显著超过CASP13版本的AF精度。我也希望学术界能够像过去的两年一样,通过更好的创意奋起直追。毕竟,AF2的优异表现只能说明蛋白结构预测问题对于Deepmind公司一家而言已经解决,而只有当学术界的多个实验室能够达到相似的预测精度,才标志着结构蛋白预测问题已经解决。由于商业公司的知识产权问题,AF2很有可能会像CASP13版AF一样只会发表语焉不详的论文和残缺的代码,使其算法无法直接被学术界实现,因此蛋白结构预测领域的课题组不能因为AF2而止步不前。尽管Deepmind团队在CASP14会议上对AF2的报告简略而晦涩,对其基于注意力机制的端到端算法的具体架构甚至几乎只字未提,我们依然得到了一些启发。首先,在无类标序列上预训练的自然语言处理模型,以及Deepmind特别擅长的强化学习(reinforcement learning)方法,都没有对蛋白结构预测有明显的帮助,只可能是对正在进行这个方向的研究的课题组一个提醒。其次,和BAKER-ROSETTASERVER,tFold以及RaptorX-DeepModeller一样,AF2也额外加入了结构模板中提取的特征,这是一个我们课题组没有特别注意开发的思路。最特别的是,尽管AF2也和大多数课题组一样用目标蛋白序列搜索序列数据库,构造多序列比对,从中提取特征,并像我们课题组一样为构建高质量的多序列比对不惜使用庞大的宏基因组数据库,却独树一帜的摒弃了被几乎所有课题组广泛使用的从多序列比对计算得到的共进化(coevolution)特征,由此可见,如何在蛋白结构预测中有效利用多序列比对依然是一个非常值得研究的课题。”
作为DeepPotential的开发者,来自密西根大学张阳教授实验室和南京理工大学於东军教授实验室的联合培养博士生,李阳也提到,“虽然现在AF2给出的信息有限,但是仍然具有很大的启发性。接下来我们将会做更多的尝试。”
DEMO开发者,密西根大学张阳实验室周晓根博士后也谈到自己的几点看法:“两年前,首次参赛的AF在CASP13中脱颖而出,其方法给了学术界一些启发,不得不承认CASP14中一些方法的提高或多或少都离不开AF的影响,但是由于AF只开源了部分源码,在这两年中,能够直接使用AF预测结构的例子几乎没有。相比于AF,我们课题组开发的I-TASSER和QUARK,以及Baker课题组的Rosetta等,在蛋白质结构预测以及生物医学领域被广泛使用,对学术界的贡献众所周知。在刚刚过去的CASP14中,AF2结果令人震惊,相对于上一届比赛的提高空前未有,堪称接近于解决了蛋白结构预测问题。AF2虽然解决了蛋白质折叠的一部分问题,但是需要解决的问题仍然还有很多,例如,如何预测高精度的蛋白质复合物结构或多域蛋白结构,如何基于精确的结构预测蛋白质功能,如何利用高精度结构进行药物分子设计等。另外,AF2震撼的结果也完美地证明了高精度蛋白质结构可以通过计算方法得到,进一步提高了基于计算的蛋白质结构预测方法的地位,同时也明确了蛋白质结构预测方法前进的方向,为学术界提供了继续奋进的动力。”
“AF2在本次CASP14比赛中表现如此惊艳,有些意料之外,又在情理之中。在两年前的CASP13中,初次参赛的AF就拨得了人工组的头筹。从我们实验室自身的发展来看,这次我们使用的D-I-TASSER和D-QUARK也比两年前使用的C-I-TASSER和C-QUARK有了极大的提高。对于Google这样一个巨无霸公司来讲,两年的发展无疑是巨大的,这种发展亦非一般实验室可比。而且,从他们发布的会议摘要来看,这次他们确实有一个更为强大的团队参与蛋白质结构预测。回到结构预测这个问题本身,其实我更关心的是,预测出来的结构模型在多大程度上可以用于功能设计。一个朴素的想法就是越准确、越接近于实验结构的模型更有利于提高蛋白功能设计的准确性。这次比赛中,AF2发布的许多模型达到了实验的水准,以至于难以区分模型与实验结构的差异是否源于实验的误差;在一些很难预测的Loop区域,AF2模型也达到了亚埃级的精度。因此,这些高质量模型在蛋白-蛋白相互作用建模以及药物设计中的应用可能并不比实验结构精度低。总之,这次AF2着实为整个蛋白质结构领域树立了一个很高的标杆。即便如此,AF2也未能回答一些问题,诸如蛋白质是如何折叠的。下一步,我们需要思考‘蛋白质结构预测还有多大的进步空间,是否有极限,以及蛋白质折叠问题何时才能最终解决?’等问题”。张阳实验室黄晓强博士后,EvoDesign,FASPR的开发者也谈到了自己的想法。
张阳实验室CR-I-TASSER开发者,张曦博士后结合自己在冷冻电镜方面的研究工作谈到:“冷冻电镜在结构生物学领域扮演着越来越重要的角色。在本届CASP14大赛中,冷冻电镜实验提供了23个目标蛋白,对比往届的7个目标蛋白增长迅猛。对于如何从冷冻电镜实验的电子密度图(density map)精确预测蛋白结构,我们实验室也有一系列的成果,例如对初始结构进行精修的EM-Refiner,多结构域预测的DEMO-EM,以及结合卷积神经网络和I-TASSER的从序列出发的CR-I-TASSER。在物理、统计力场越来越完善的今天,我们有信心把相关的结构预测算法做得愈臻完善。AF2的结果对我来说兼具视觉和心灵上的冲击。作为学者,我对此的感觉是敬畏,好奇,与兴奋:敬畏于重大的科学突破,好奇于其理论与实践方法,以及兴奋于未来更森罗万象的研究前景。比如说,如果仅凭序列信息就能预测高精度的结构,那么冷冻电镜实验后的分子建模将会趋向于对此初始结构进行精修。相对简化的建模程序也会降低建模难度,从而提升冷冻电镜领域的产出。也有人担心,AF2精度如此恐怖,是不是可以取代实验了?我的看法是不行,至少目前还不行。理论预言远早于实验的先例不是没有,在物理学里就不胜枚举,比如老爱1916年预言的引力波在2016年才发表出实验成果。但是,支撑着如此有分量的理论预言,其实是广义相对论的严格数学框架。这些数学公式基于无数的实验基础与缜密的逻辑推演,让有逻辑强迫症、公式洁癖与终极信仰的学者们心里无比踏实。
再看AF2,其所用的神经网络等价于一个异常复杂的函数,这个函数必然不具备所谓的物理意义,也失去了人类引以为傲的逻辑分析。换句话说,让人用起来缺乏安全感,就好像做奥物题,解字后面直接给了个最终答案,没有中间步骤,这让人怎么评价嘛。不过想想,如果一道题是这样的,可能是蒙的或者是抄的;但是如果整张卷子都是这样,那么“这人有点东西”的概率就很高了。AF2的处境也类似,需要积累口碑(多做题),或者是把其神经网络解析成人类可以理解的物理力场(写解题步骤)。企业嘛可能做前者刷刷题可能就够了,但是做科学的话显然后者的意义大的多,也必然是未来的超(ying)有(gu)趣(tou)方向之一。至少在做到这些之前,AF2是不可能替代实验的。
截至目前,DeepMind并没有公布AF2的更多细节(企业限定),比较确定的是其使用了端对端(end-to-end)以及注意力(attention)的神经网络,并至少在100+个TPU上训练了数周,这种计算资源的量级令学界内大叹望尘莫及。但是这也是一次机遇,除了堆砌算力暴力破解AF2以外,让更多的有想法的年轻学生/学者发挥创造力研发接近/超越AF2的低资源需求算法可能更为重要。有人认为AF2已经终结了蛋白质折叠的领域,在我看来恰恰相反:AF2的成功会激励更多人才进入相关的领域,因为大家都知道终极的答案也许不远了。
大海贼时代来临了。”
最后,关于蛋白质结构预测问题,引用张阳教授的话:“AlphaFold2结果,在一定程度上表明蛋白质结构是可以预测的”。顺着这句话,我想说的是,春天来了......

    推荐阅读