数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统

为方便客户进行网上登记,提升各大官网系统的智能化水平,很多官网已上线“智能小客服”。“智能小客服”支持语音引导、机器人24小时智能问答、文字提问、上传图片咨询、关联问题推荐、远程人工客服等多种便利化的贴心咨询服务。这些服务中运用到了自然语言处理(NLP)中的智能问答系统。
数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统
文章图片

自然语言处理(NLP)应用场景分析?

自然语言处理是人工智能的一个子领域。自然语言处理是探究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。为了建设语言模型并使其更加完善,自然语言处理建立了计算框架,提出相应的方法来不断的完善各种实用系统,并探讨这些实用系统的评测方法。

什么是智能问答系统?
智能问答系统是自然语言处理领域中一个很经典的问题,它可以用来回答人们以自然语言形式提出的问题。这需要对自然语言查询语句进行语义分析,包括关系识别、实体连接、形成逻辑表达式,然后到知识库中查找可能的备选答案,再通过排序机制回答出最佳答案。

问答系统简介
问答系统通常分为:

  1. 任务型机器人
  2. 闲聊机器人
  3. 解决型机器人
三种类型的机器人设计分别应用在不同的场景:
  1. 任务型机器人主要用于完成用户的某些特定任务,比如:天气咨询、买机票、充电费等。
  2. 闲聊机器人主要用于深入的和用户进行无目的交流;
  3. 解决型机器人主要用于解决用户的问题,比如:商品购买咨询、商品退货咨询等。

任务型问题:
  1. “杭州今天天气怎么样?”
  2. “周二呢?”
  3. “周三呢?”
“杭州今天天气怎么样?”属于天气类问题(其中包含实体“地点”、“时间”),并且能够完成应答。
“周二呢?”这个问题只包含实体信息(“时间”),并没有包含地点信息,如果直接采用意图分类,则无法完成此次应答。
“周三呢?”这个问题和上一个问题一样,同样只包含实体信息(”时间“)。
针对此类的多轮对话场景,可采用slot filling的方式进行应答。Slot filling是由多个槽值组成,例如:天气场景需要实体槽值“地点”和“时间”)。“周二呢?”和“周三呢?”只包含“时间”实体,但是上文“杭州今天天气怎么样?”中还包含了“地点”实体,只需要将下文的实体(“时间”)替换上文的实体(“时间”)即可。
数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统
文章图片

解决型问题:

  1. “这件衣服多少钱?”
  2. “运费需要多少钱?”
  3. “支持七天无理由退货吗?”
针对以上的多轮对话,包含商品的购买、售前运费和退换货三个不同的意图,并且后面的意图分析需要了解前文的会话意图。
“这件衣服多少钱?”可通过单句的意图分类即可完成应答。
“运费需要多少钱?”则需要结合上文问题的方式进行意图分析再作出响应的回答:①抽取上文的意图特征加入当前问题可解决部分上下文场景问题;②结合上文和当前问题采用深度学习的算法进行上下文的意图分析。
“支持七天无理由退货吗?”需要知道商品的信息才可以回答用户的问题,因此需要了解上文商品“衣服”(需要将对话中实体、商品信息保存用于下文应答当中)。

闲聊型问题:
  1. “在干嘛?”
  2. “在工作,有点忙。”
  3. “晚上一起吃饭吗?”
  4. “好呀,晚上见!”
针对以上闲聊型问题,由于用户并无明确的意图,因此不适合做意图分类,因此我们可以采用生成式模型,根据大量用户历史的闲聊语料生成相应的答案。生成式模型得到的答案可能存在语法、连贯性问题,但闲聊场景的对话对语句连贯性和语法要求相对不高,较随意。

数据标注的重要性
近年来,作为人工智能的三大决定性影响因素:算法、算力和数据,在过去的几年中也取得了很大的突破。NLP基于大规模的带标注的数据进行端对端的学习,已取得了不小的进步。随着NLP模型变得越来越大,需要更多更精准的标注数据对其进行训练。

景联文科技提供nlp标注服务
景联文作为长三角地区规模最大 的AI基础数据服务商之一,为客户提供全链条AI数据服务,从数据采集、清洗、标注、到驻场的全流程、一站式AI数据服务,协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。
并于2020年上线了自有标注平台,保证数据的安全合规性,涵盖了绝大多数主流标注工具,支持NLP标注业务,包括OCR转写、文本信息抽取、NLU语句泛化等标注,现有数据库拥有相关成品数据集100T。
景联文科技通过智能化的标注平台产品赋能AI训练数据行业,拥有实时量化的可视化管理系统,包括数据集管理、项目管理、人员管理、供应链管理等内容,拥有全面的质检流程,能够有效提高人机协作效率,扩大产能,及时调整标注方案,做好逾期风险管控,准确把控数据质量问题;对全职采标团队建立完善的人员培训、管理体系,推出整套AI产业人才培养解决方案,分别开通理论课程、实训课程、结业考试等培养项目,通过理论与实践相结合为行业输送高素质数据采集标注员。

数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统
文章图片

文本采集案例:
一、需求:
11国语言语料文本采集110万条,每个语种包含天气、导航、视频、语音等30个意图。
二、项目难点:
采集内容猎广难度大,在限制多的情况下,要用不同的句式来表达同一个意思,对采集人员素质能力要求高;数据量大,工期紧张。
三、解决方案:
配备3年以上文本采集项目管理经验且精通多国语言的项目经理和采集团队;配置专属商务、项目经理、采集员、质检员、技术人员,根据项目要求进行项目结构分析,基于WBS原理将项目按照其内在结构和实施过程的顺序进行逐层分解成树状图,形成相对独立、易于管理和检查的项目各单元项目责任、进度等具体地落实到本项目每个参与者,确保采集数据质量。
数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统
文章图片


景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法
助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级

【数据标注|自然语音处理(NLP)系列(五)——详解智能问答系统】文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

    推荐阅读