crf中文分词分析

所以在中文的NLP中,首先要做到分词,中文不像英语 , 每个单词都用空格分隔,所以分词的英语NLP比较简单,只需要用空格分隔 。中文 分词与英文分词有很大的不同,对于英语来说,一个词就是一个词,而汉语是一个基本的书写单位,词与词之间没有明显的区分标记 , 需要人工切分 。

1、QA问句解析的七种方法及优化思路在谈到智能搜索和对话式OS时 , 提到了人机对话系统的三种常见场景,即聊天机器人、问答和VPA 。本文涉及的解析方法主要适用于问答系统中的封闭领域问答,即将用户提问解析为库中已有的标准问题 。这里说的七种方法都是看了文献后总结出来的,并不都是成熟、稳定、商业化的 , 目的只是提出思路供参考 。

基于规则的解析系统通常由两部分组成:一是“规则库”,解析规则通常是CFG上下文无关文法;另一个是同义词数据库,记录了标准词中一些常见的同义词 。整个句法分析是一个上下文无关的语法归约过程 。首先进行automatic 分词,然后根据同义词库将用户问题中的词还原为标准词,再将还原了词的问题与规则库中的解析规则进行比较 。一旦比对成功,用户问题就成功还原为解析规则对应的标准问题 。

2、 分词算法是什么? 分词算法是文本挖掘的基础,通常对整个模型的效果起着决定性的作用 。分词算法的两种常用运行方式:1 。用户搜索和匹配 。比如我们在百度里搜索一个词“手机回收”,那么百度会先把这个词分成两个词:手机和回收 。这时候百度会先在数据库中搜索手机这个词然后进行第一轮筛选 。将网页中的“手机”字样去掉,只保留带有“手机”字样的结果,然后从筛选后的网页中选择带有“回收”字样的页面 。
【crf中文分词分析】
2、网页主题计算前面的启蒙博客提到过 , 百度蜘蛛只是一台机器,它不会像人一样思考 。在处理一篇文章的时候,百度蜘蛛也会处理文章分词 。如果手机这个词在文章中出现的频率很高,也就是关键词密度,那么这个页面也会被定性为关于手机的文章 。搜索引擎使用分词算法来计算网页 。如果能合理使用分词算法来布局网页,会得到一个不错的分数 。

    推荐阅读