人工智能|AI年度总结与展望:超大规模预训练模型爆发,自动驾驶迎商业化前夜( 七 )


  • 趋势一:面向内容生成的AIGC
元宇宙世界需要孪生大量现实世界的物体或是对于现实世界的人物进行重建,而这些海量的重建必然不能按照传统游戏世界中的方法,由CG工程师一个个手工制作,这样效率远远无法满足实际场景的需求 。因此面向内容生成的AIGC(算法层面)是必要的 。相关技术方向包括:图像超分、domain迁移、外推、类似CLIP(对比式语言图像预训练模型,可以从自然语言监督中有效学习视觉模型)的隐式神经表示 — 通过文字描述来生成图像等多模态的(CV+NLP)等相关技术 。
  • 趋势二:SCV合成
虚拟现实引擎有专门的生成合成数据的组件,这些合成数据不仅美观,而且有助于训练更好的算法 。
生成/合成的数据不仅是元宇宙的必备要素,也是训练模型的重要原料 。如果有合适的工具来构建数据集,就可省去繁琐的给数据手工打标的过程,更好地对计算机视觉算法进行开发和训练 。
知名数据分析公司Gartner认为在未来3年中,合成数据将比真实数据更占优势 。在合成计算机视觉(SCV)中,我们使用虚拟现实引擎训练计算机视觉模型,并将训练好的模型部署到现实世界 。
07 制约知识图谱商业化落地的主要问题在于标准化 重要技术进展
知识图谱技术在过去这一年取得的重要技术进展有:
知识抽取方面,多模态信息抽取在同时处理文本和视频方面取得了进展;知识表示方面,自注意力机制的知识表示方法越来越走向实用;知识应用方面,很多行业开始构建行业知识库,用于各类下游任务 。
明略科技资深科学家张杰在接受采访时指出,现阶段,在知识图谱方面,业界普遍面临的研发难点主要体现在两个方面:算法方面,针对非结构化数据的信息抽取和实体对齐的准确度难以保障直接商用,需人工校验;工程方面,行业图谱构建成本高,需要大量的人工标注,另外构建进度也不是一蹴而就,需要业务专家不断运维 。
张杰预测,2022年,领域预训练语言模型和Prompt在知识图谱中的应用,有望使得信息抽取环节得到进一步提升 。针对技能性知识的抽取技术和多模态抽取技术,商用前景广阔 。
应用落地进展
2021年,知识图谱技术的应用落地,在ToC场景中仍主要用于搜索、推荐的提升,在ToB场景中集中在可视化上 。
张杰认为,现阶段,制约知识图谱商业化落地的主要因素在于标准化,行业图谱的schema很难在企业内部大范围内达成认知的一致性,影响了后续的标注、抽取、应用 。
2022年,知识图谱技术的大规模化应用可能会在制造业出现突破,制造业的知识密度高、重视标准化,头部企业重视数字化建设,积累了大量原始数据 。
2021年度AI技术突破
————01 人工智能预测蛋白质结构2021年12月15日,Nature发布了《2021年十大科学新闻》;12月17日,Science紧随其后,公布了《2021年度十大科学突破》 。Nature和Science都将「人工智能预测蛋白质结构」评为本年度最重要的发现,Science更是将其列为“2021年十大科学突破进展”之首 。
长期以来,蛋白质结构的预测一直是生物学领域的研究热点和难点 。传统的蛋白质结构探测方法主要有三种:X射线晶体学、核磁共振和冷冻电镜 。但这些方法成本较高,研究周期漫长,且进展有限 。
人工智能为这一困扰生物学界数十年的难题按下了快进键 。
2021年7月,蛋白结构两大AI预测算法 —— DeepMind的AphaFold2和华盛顿大学等机构研发的RoseTTAFold相继开源 。

推荐阅读