你需要知道的智能搜索应用于产业场景的七大问题

近日,虎博科技技术副总裁谭悦做客雷锋网AI金融评论公开课,讲解了企业应当如何拥抱以NLP为代表的人工智能新基建,并介绍了NLP(Nature Language Processing,自然语言处理)技术的应用场景及代表性技术应用智能搜索对企业提升客户服务品质的价值潜力。以下是想借力AI、NLP(自然语言处理)提升业务智能属性的从业者们不可不知的七大问题,看看是否正是你所困惑的。
问题1:对于企业级用户来说,智能搜索能够解决什么痛点?
总结一句话:数据密集型企业和政务机构都需要智能搜索。首先要知道是什么企业,所处在什么行业,不同的公司痛点肯定是不一样的。对自然语言处理来说,什么样的公司会有比较大的痛点呢?首先它应该有比较多的文字类的信息(这些信息最好是线上化的,如果非线上化的话,我们也可以逐渐地把它变成线上化,但这就需要一个预处理过程),并且需要有大量的一些人工来处理这些信息,原先处理这些信息或者获取这些信息的效率是比较低的,当效率提升以后能创造出极大的收益。比如金融机构中投资、投研就是非常典型的。
问题2:智能搜索里如何运用知识图谱?
【你需要知道的智能搜索应用于产业场景的七大问题】智能搜索里我们其实主要用了两类不同的技术,一个语义模型,一个知识图谱,两者相互配合。知识图谱其实出现得非常早,很早的时候包括从谷歌大脑、百度知心,希望把世界上主要的知识都通过一个图谱归纳,这个理想实现也是有很多困难。这个世界上面的知识其实是非常庞杂的,热门的大家都知道的有很多,但是有很多其实都隐藏的很深或者需要一些特别精通熟悉某个领域的人士才会知道了解。所以要把开放域全部知识放在图谱里面是很难的。但是一些特定领域的知识图谱是可以去构建的,比如说基于公司行业概念,基于供应链上下游,基于一些人物和实体关系的这些图谱,现在我们无时无刻都在用到。我们通过一些语义模型,从海量数据的统计意义上来构建对这个世界的认知。当知识图谱能够明确关联的时候最好,如果没有,那么通过语义模型来进入一个概率上面的关联,甚至可以用这些概率上的关联来帮助逐渐地构建和拓展知识图谱,所以这二者之间就可以相互配合。具体来讲,一般会在什么领域用到呢?比如,底层的信息挖掘、用户的理解、召回、排序,甚至做一些推演和比较的时候,都可以用到这样的技术。
问题3:虎博搜索的智能搜索方案目前已经输出了吗,在哪些机构用了,效果怎么样?
我们第一个切入的场景是金融,已经向很多知名机构输出了我们的智能搜索方案并达成合作。例如,我们已经与50%的国内头部券商达成合作,目前也开始覆盖到了大宗商品、交易商、保险、基金、代销、银行等客户。除此之外,我们正在向更多的领域扩展,比如政务、大数据中心、媒体、医药等。整体来看,项目在实施的时候并不是一次性地全部做完的,会根据不同的场景需求,分阶段进行。公司从去年初开始商业化,目前我们很多客户都已经进入到二期、三期的阶段了。
问题4:智能搜索的思路和做智能营销的思路是不是差不多?
用户产品和商业产品是两条非常不一样的思路,对于用户产品也就是我们说的智能搜索来讲,最关键的优化目标,是能不能够比较准确、快速、全面的找到用户感兴趣的信息,所以它的评价指标是准确率、召回率、用户点击率、停留时间等等,当然如果有一些显式反馈的机制,如打叉关闭的这种机制的话当然也可以。对于智能营销来讲,它其实跟广告就很像了,它最终考虑的是商业收益,也就是转化率,你点得再多,最后没人买单那是不行的。或者说买了单,但是你的投入产出比不行,那么营销策略就是有问题的。所以在这个过程当中,底层算法是有一些类似,但最终要优化的目标不一样,就决定了在这个产品当中运用算法的方式和优化算法的目标有所不同。
问题5:训练算法要怎么解决和客户合作的数据安全问题,尤其是金融行业?
第一,我们提供私有化部署和定制化开发的空间。第二,为了能让上述过程更高效,我们把很多功能变成工具化的,把很多算法变成有预训练的,这样可以用于金融机构的内部,对接到机构自己的数据中,在机构自己的系统里进行更新,快速地适配到那个环境里面去。
问题6:自然语言处理项目落地是公有云还是私有化多,如果是私有化的话应该怎么去迭代模型?
如果是从全行业来讲,其实公有云和私有化都有,具体到金融行业,私有化比较多。公有云现在处在一个被逐渐理解和接受的过程当中。一方面因为数据安全性,另外一方面某些核心业务从法律法规的要求上来讲也需要私有化。但如果是私有化,怎么去迭代模型?我们的模型的迭代,已经不一定非要通过公有云的方式才能够提供,我们有自动化的迭代模型工具,可以理解为只要有源源不断地把数据,我们经过工具化的调参、优化就可以有一个模型更新出来。如果原来已经有的一些技术,我们可以先做完全的重构以后,再到金融机构内部来进行测试和重新部署。
问题7:自然语言处理在风控领域的落地场景有哪些?
传统的银行业务里有自己的风控模型的定义,主要是基于资金、交易、用户或者企业账户的信息。自然语言处理是新涌现出的,用于辅助风控的技术。现在很多风险的来源并不是来自于一欠款没还,或者消费陡增,亦或是有诉讼官司,更多的是来自于全网的另类数据,比如说企业的涉诉信息、自媒体评论等,甚至很多数据可能出现在微博、知乎、公众号、贴吧甚至是天猫商品评论里面。利用自然语言处理技术可以对这些数据进行全面、系统的分析,以提前预判潜在风险,升级风控等级,这就是一个典型的应用场景。

    推荐阅读