将文本的分词结果用许多数值对来表示。每一对数字对应一个词,表示词的首字和末字在文本中的位置。
例如有一个字符串文本:
万人大会堂今晚座无虚席
字符串中每个字符的索引分别为:
0123456789 10
标准分词结果如下:
万|人|大会堂|今晚|座无虚席
我们分词结果用一个个数值对来表示(根据每个词在字符串中的索引顺序):
(0,0) (1,1) (2,4) (5,6) (7,10)
这样通过比较 标准分词结果 和 测试分词结果 的数值对的重合情况,就能计算出测试分词结果的正确分词数。从而计算出准确率和召回率。
准确率和召回率计算方法如下:
文章图片
例如: 若正向最大匹配分词结果为万 | 人大 | 会堂 | 今晚 | 座无虚席
得到数值对(0,0) (1,2)(3,4)(5,6)(7,10)
切分结果中正确分词数=3(与标准分词结果中有3个数值对相同)
切分结果中所有分词数=5
标准切分中所有分词数=5
准确率=3/5召回率=3/5
【中文分词性能分析方法】逆向最大匹配分词结果为万 | 人 | 大会堂 | 今晚 | 座无虚席
得到数值对为(0,0)(1,1)(2,4)(5,6)(7,10)
切分结果中正确分词数=5(与标准分词结果中有5个数值对相同)
切分结果中所有分词数=5
标准切分中所有分词数=5
准确率=1召回率=1
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 深度学习|论文阅读(《Deep Interest Evolution Network for Click-Through Rate Prediction》)
- nlp|Keras(十一)梯度带(GradientTape)的基本使用方法,与tf.keras结合使用
- NER|[论文阅读笔记01]Neural Architectures for Nested NER through Linearization
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|[深度学习] 一篇文章理解 word2vec
- 论文|预训练模型综述2020年三月《Pre-trained Models for Natural Language Processing: A Survey》
- NLP|NLP预训练模型综述
- NLP之文本表示——二值文本表示
- 隐马尔科夫HMM应用于中文分词