自然语言处理|张民教授自然语言处理讲座

苏大自然语言张民教授讲座
http://www.sohu.com/a/246177720_651893
人的进化与语言的关系
从感知、认知到进化,人为何能步入食物链的顶端?因为人类有语言,语言使人类区别于动物。语言的本质就是一套符号系统。从语言的种类来看,一个是动物语言,一个是人工语言,再者是自然语言。自然语言是人类最重要的工具,是人类进行沟通交流的各种表达符号。
那么自然语言处理的定义是什么?就是用计算机来处理人类的自然语言。
自然语言处理有三件重要的事:
1. 分析和理解;2. 生成和应用(互动过程);3. 动作(执行语言相对应的内容)。
为了更好地进行表示、推理和学习,自然语言处理涉及到了哪些方法?张民教授总结了如下内容:自然语言处理学科自身的算法和理论,规则方法,统计方法、机器学习方法及深度学习等多种方法。
机器能理解人类的自然语言吗?
从广义角度来说,真正的自然语言处理从 1950 年代的机器翻译研究开始。但语言存在高度歧义、高度结构化的特性。为何自然语言处理的难度如此大?张民教授认为包括如下因素:

  • 功能:语言是对世界的认识和理解;
  • 知识:涉及到语言学知识、外部知识、领域知识甚至是常识等多种综合知识。
  • 特性:语言具备组合性、开放的、动态的、长期特性等多种特性。
  • 语用性:张民教授着重强调了环境、上下文、信息、意图等各种因素对于理解语言的重要性和复杂性。
二、自然语言处理的方法
与人工智能一样,张民教授也将自然语言处理划分为外延和内涵两个部分。外延指的是自然语言处理的应用(下一部分会重点说明);内涵则涵盖三大内容,包括以自然语言分析(分析语言表达的结构和含义)、自然语言生成(从内部表示生成语言表达)和多语言处理等。
【自然语言处理|张民教授自然语言处理讲座】分词
分词的任务定义为:输入一个句子,输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」
目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。
挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合及多粒度分词等。
命名实体
现在的主流方法包括:
1. 规则系统
2. 基于机器学习的学习系统
目前的挑战包括新领域旧实体类别识别、新实体类别识别等,解决办法包括利用构词知识、领域知识,使用强化学习、跨领域学习、半监督学习、众包、远程监督等机器学习方法。
句法分析
句法分析的任务定义为:输入一个句子的词语序列,输出为句子结构表示的过程。依存句法分析输出的是依存句法树,下面以依存句法分析为例。
目前采用的方法包括:
  • 基于图的方法,即从图中搜索得到句法树,主要的任务在于确定每个依存弧的分值;
  • 基于转移的方法:即通过一系列移进规约的动作得到句法树,主要任务在于基于当前状态,确定每个动作的分值。
现在的主流做法是在上述两者的基础上加入深度学习的方法。
语义分析
定义是将文本转换为可计算的知识表示。目前学术界语义表达方法包括:1)浅层语义分析;2)逻辑语义分析;3)抽象语义表示分析。
篇章分析
篇章的定义指的是一系列连续的语段或句子构成的语言整体单位,核心问题是篇章结构和篇章特征,其所基于的语言学基本理论包括中心理论、脉络理论、RST 等多种语言学基本理论。
  • 基本结构分析
篇章结构指的是篇章内部关系的不同结构化表达形式,主要包括逻辑语言结构、指代结构、话题结构、功能结构、事件结构等范畴。
  • 基本特征的研究
包括连接性、连贯性、意图、可接受性、信息性、情景性和跨篇章等七个基本特征。
自然语言生成
张民教授总结了在基于规则、基于知识的检索及基于深度学习等三种自然语言生成方法的优缺点对比及适用场景。
  • 基于规则
它的一大优势在于具体领域的能做到精准回答;但相应地,在可移植性及可扩展性上则存在不足;适用的场景以个人助理为主,和任务驱动型的对话。
  • 基于知识的检索
它的优点在于知识库易于扩充,答案没有语法错误;但对话连续性差,容易出现答非所问的情况;适用场景以问答系统、娱乐聊天为主。
  • 基于深度学习
基于数据驱动的方法能够省去显示语言理解等过程,但需要大量语料支持;适用场景以虚拟影像、智能聊天机器人为主的有丰富领域语料的场景。
三、自然语言处理的应用
自然语言处理应用包括自然语言处理本身的直接应用和自然语言处理加行业的应用。直接应用包括,问答、对话、机器翻译、自动文摘、机器写作、阅读理解、信息抽取、情感分析等;同时,自然语言处理在各个行业中都有越来越广泛的应用,包括教育、医疗、司法、金融、旅游、国防、公共安全、科技、广告、文化、出版各行各业。
1. 情感和情绪分析
在业界研究和应用,情感一般包括正面、负面和中性,而情绪一般表现为喜、怒、哀、乐、惊、恐、思等。情绪和情感都是人对客观事物所持的态度体验,只是情绪更倾向于个体基本需求欲望上的态度体验,而情感则更倾向于社会需求欲望上的态度体验。情感和情绪分析包括问题驱动和模型驱动两个方面,在工业界和学术界都已经有着广泛的应用和研究。
2. 问答
智能问答主要有三方面的要求:一是理解人类语言的内涵;二是推敲知识获取的意图;三是挖掘精确贴切的知识。
相应地,问答系统需要解决三个问题:
1. 问题分类、分析和理解(一阶逻辑、二阶逻辑)
2. 答案的匹配、检索
3. 答案生成
问答的四个难点及解决方法
1)多源异构大数据背景下开放域问答的瓶颈。在效率与覆盖率的权衡下,数据大小与知识占比的关系是每个研究者需要考虑的问题;而结构化数据与非结构化数据的混杂,导致知识挖掘与存储存在相应的难点;此外,数据时效性的变化也给新旧知识的应用带来了挑战。
以往是用 IR 或 RC 的方法,但目前流行采用对检索所得的多个段落排序,也就是在 IR 和 RC 中加入了排序的操作,进而进行面向多段落的提取/生成答案。
2)深度语义理解的问答技术。以 Watson 为代表的系统采用的是抽取与置信度计算的方法;目前则是阅读理解抽取/生成式方法推动了技术发展。
3)知识库与知识图谱。以往的知识库存在可靠性、包容性低,存在通用性不高的问题,目前研究者们更多考虑用当下热门问题自动生成来实现知识图谱的自动更新和扩展。
4)多模态场景下的问答。问题的对象往往潜藏于多媒体,且答案的判断需要参考其它媒体的数据资源。目前出现了以语言处理 RNN 与图像处理的 CNN 的有机结合方法,实现跨媒体的特征共享、独立和抗依赖。
对话
根据应用场景的不同,可分为开放域及封闭域对话系统。高准确率的上下文篇章建模、对话状态转移模型和领域知识建模是目前对话亟待解决的问题。
知识图谱
包括知识建模、知识图谱构建、知识融合、知识推理计算以及知识赋能等主要任务。知识图谱构建是目前学术界和产业界研究热点,包括实体及其属性识别、事件抽取、实体事件关系抽取、概念实例化和规则学习等。
机器翻译
机器翻译目前已经取得较大进展,张民教授展望了未来机器翻译可以从如下领域做发展:
知识建模和翻译引擎,从词序列到语义到知识,利用知识图谱和各类知识(语言学知识、领域知识、常识知识等)进一步延伸机器翻译的边界;
研究新的翻译模型,从广度(篇章)和深度(深度理解)进一步推进机器翻译的理解能力。此外,还需要适应产业化的需求和国家战略需求。
四、AI 时代的自然语言处理
张民教授告诉雷锋网 (公众号:雷锋网) AI 科技评论,目前的自然语言处理发展处于历史上最好的时机。早在 90 年代,他们团队就尝试做过自然语言处理的商业化应用,但因为技术的局限性,最终并没能将商业模型成功落地。「早起的鸟儿有虫吃,但起得太早,天没有亮就饿死了。」张民教授的切身体会让他意识到,技术的进步,加上产业的需求和落地,让自然语言处理到了今天才迎来了新的春天。
同样地,张民教授在讲座中也提到了自然语言处理于 AI 时代的三个基本问题,一个是表示;一个是搜索、推理,还有一个是学习。
  • 从底层来看,包括 NLP 词法、句法、语义到篇章的 NLP 基础研究和核心技术;
  • 从应用研究来看,包括情感分析、信息抽取、对话系统、阅读理解、信息检索、问答系统、知识图谱、机器翻译等;
  • 从上层来看,则是相应的平台、系统和应用。
以上这些也是张民教授团队研究工作的重点。
张民教授对 AI 科技评论表示,从数据、信息到知识和智能,未来的学科边界与知识智能结合会进一步融合,并在可解释性、小数据、知识赋能等亟待解决和探讨的问题上进一步延伸;与此同时,注重科学问题的凝练,定义学科研究规范和研究框架,重视产学研的结合与交融,这也是他寄予自然语言处理在 AI 时代这个「历史上发展的最好时期」的期待。

    推荐阅读