人工智能|AI年度总结与展望:超大规模预训练模型爆发,自动驾驶迎商业化前夜( 六 )


“尽管现在的预训练模型一直在往这个方向努力,但我认为起码目前这种 Transformer式的,或者更通用地说,DNN这种蜂巢智能式的技术范式不太行 。所以,大家能看到也有不少研究学者在知识图谱类的各种其他范式上在做努力”蒋宏飞说 。
通用性的模型既然走不通,那垂类单一具体场景任务为什么也不能快速搭建?这个问题又涉及到数据的问题 。数据标准的对齐、数据标注一致且高效、数据覆盖度和均衡度、长尾数据的处理、数据动态漂移等都是NLP从业者每天面对的麻烦事 。而相关的方法论和基础工具还很不系统、不齐备,这是未来想达到快速商业化目的前必须打好的基础 。
2022年,NLP将在哪些场景实现规模化落地?
2022 年,NLP的大规模化应用可能会出现在以下行业出现突破:

  • 教育智能化 。
  • 场景化高标准机器辅助翻译,如专业领域文档翻译、会议实时翻译等 。
  • 服务运营智能化:培训、销售、营销、服务等场景的智能化 。
  • 外文学习/写作智能辅助,参考Grammarly和Duolingo的快速发展 。
  • 医疗智能化 。文本广泛存在于电子病历、临床试验报告、医学产品说明书、医学文献中 。分析、挖掘和利用这些文本,有大量且能直接使用的场景,可能会有突破式发展 。
  • 代码智能分析 。代码bug识别、代码智能优化等 。
2022年,NLP值得关注的技术点
  • 基于提示的微调 (prompt-based tuning) 的技术 。
  • 具有逻辑推理的文本生成技术、具有良好控制性以及一致性的文本生成技术 。文本生成要在严肃场景用起来就必须满足这些,否则只能应用在娱乐场景 。
  • 多模态技术 。如NLP+CV、 NLP + Image、 NLP+ Speech等 。
  • 主动学习、数据增强等 。NLP大规模快速落地时的很多痛点需要这些技术来缓解 。
  • 代码智能 。代码问题识别、代码翻译、自动代码优化、代码工作量评估 (如Merico的方案) 。
06 元宇宙概念大火,计算机视觉是基石技术之一回首过去的一年,OPPO AI技术产品化专家(语音语义和计算机视觉以及多模态融合方向)何苗总结了计算机视觉在工业界和学术界的进展 。
具身智能,从被动式 AI 转向主动式人工智能
具身智能(embodied AI),强调智能体(agent)要与真实世界进行交互,并通过多模态的交互 — 不仅仅是让AI学习提取视觉上的高维特征,被“输入”的认知世界,而是通过“眼耳鼻舌身意”六根来主动获取物理世界的真实反馈,通过反馈进一步让智能体学习并使其更“智能”、乃至“进化” 。
2021年2月,李飞飞提出了一套新的计算框架——DERL(deep evolution reinforcement learning)深度进化强化学习 。她提到了生物进化论与智能体进化的关系,并借鉴了进化论的理论应用于假设的智能体的进化学习中 。
进入元宇宙,需要智能感知和交互这张门票
今年,元宇宙概念大火,各家纷纷入局 。
Facebook极为推崇元宇宙,为了表示投入元宇宙的决心,2021年,Facebook改名为meta,并宣布 “all in 元宇宙” 。
扎克伯格提出云宇宙需要具备八要素,其中之一是Presence开发平台 / 套件 。Presence是meta为Oculus VR头显开发者提供的元宇宙基础开发套件,提供的即为基于计算机视觉和智能语音技术的工具集,分别是insight sdk、interaction sdk和voice sdk 。
进入元宇宙需要智能感知与交互技术这张门票,而这张门票里的视觉和语音技术是最重要的基石 。

推荐阅读