科普|历时22年,超2亿个缺失的人类基因组首次破译|钛媒体科普( 二 )


而且大多数细胞包含两个基因组--一个来自父亲,一个来自母亲 。当研究人员试图组装所有的片段时,来自父母双方的序列可能混合在一起,掩盖了个体基因组内的实际变异 。
如今,研究人员通过新的纳米机器设备与核心技术,实现了新的无间隙版本T2T-CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成 。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因 。
这些候选基因大多数是失活的,但其中115个仍然可能表达 。团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中 。此外,新序列还纠正了GRCh38中的数千个结构错误 。
科普|历时22年,超2亿个缺失的人类基因组首次破译|钛媒体科普
文章图片

近端着丝粒染色体的显示图样(来源:论文)
具体而言,新序列填补的空白包括人类5条染色体的整个短臂,并覆盖了基因组中一些最复杂的区域 。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒 。
此外,新序列还揭示了以前未被发现的节段重复,即在基因组中复制的长DNA片段,并揭示了关于着丝粒周围区域的前所未见的细节 。这一区域内的变异性可能为人类祖先如何进化提供新证据 。
值得一提的是,本研究成果的关键进展,其实是利用了新的技术设备——英国牛津纳米孔技术公司和太平洋生物科学公司制造的快速迭代的基因测序机器 。
早在2017年,国家人类基因组研究中心(NHGRI)负责人Adam Phillippy(亚当·菲利皮),以及加州大学圣克鲁兹分校(UCSC)的凯伦·米加意识到,新的纳米孔机器实现了一次准确读取100万个DNA碱基的能力,可以为最终解决基因组难点打开了大门 。
大约在同一时间,华盛顿大学霍华德-休斯医学研究所(HHMI)Evan Eichler(艾希勒)领导的科研团队已经证明,使用太平洋生物科学公司的设备技术,可以解决更复杂形式的遗传变异技术 。
因此,三人一起创办了端粒到端粒(T2T)联盟,利用全球约100名科学家团队资源,使其加快了研究佳偶 。
随后,该团队连续六个月不间断地利用快速迭代的纳米孔基因测序机器,并请来几十位科学家来组装这些基因片段并分析结果 。最终利用设备、技术等,实现了长读数测序读数,并将长读测序与牛津纳米孔的数据相结合,准确率超过了99%,填补了全球基因学研究的空白 。
一直到2020年夏天,该团队已经拼上了两条染色体 。在新冠疫情爆发的期间,团队通过Slack等通讯工具进行远程工作,获得了另外21条染色体,将每个染色体从一端或端粒排序到另一端 。而且,科研人员人员还试图组装基因组中最难的区域,即着丝粒中高度重复的DNA序列 。
最终,通过长时间的研究与团队合作,该团队成功实现了对每个染色体进行了测序,包含了编码用于制造核糖体的RNA的基因的多个拷贝,总共400个 。
2021年6月,这份研究成果首次发表在预印版平台bioRxiv上 。经过同行评议等,如今一系列论文登上了《Science》(科学)杂志 。
研究人员在会后采访中表示,下一阶段的研究将对不同人的基因组进行测序,以充分掌握人类基因的多样性、作用以及人类与近亲、其它灵长类动物的关系 。
年增速超20%,中国百亿基因市场前景广阔随着生物学技术的不断发展,新的行业层出不穷,本次研究成果所属的中国基因测序行业是一个百亿级市场,拥有广阔的发展前景 。

推荐阅读