词法化是将单词的不同变形形式组合在一起的过程, 因此可以将它们作为单个项目进行分析。词法化与词干相似, 但它为单词带来了上下文。因此, 它将具有相似含义的单词链接到一个单词。
文本预处理包括两者抽干以及合法化。很多时候, 人们发现这两个术语令人困惑。有些人将这两个视为相同。实际上, 词干比词干优先使用词干, 因为词干对词进行形态分析。
lemmatization的应用是:
- 用于搜索引擎等全面的检索系统。
- 用于紧凑型索引。
Examples of lemmatization :->
rocks : rock
->
corpora : corpus
->
better : good
与词干的主要区别在于, 词形化是语音参数的一部分, 即” pos” 。如果未提供, 则默认值为” noun” 。
【Python使用TextBlob进行词法化示例】下面是使用TextBlob的词形化词的实现:
# from textblob lib import Word method
from textblob import Word# create a Word object.
u = Word( "rocks" )# apply lemmatization.
print ( "rocks :" , u.lemmatize())# create a Word object.
v = Word( "corpora" )# apply lemmatization.
print ( "corpora :" , v.lemmatize())# create a Word object.
w = Word( "better" )# apply lemmatization with
# parameter "a", "a" denotes adjective.
print ( "better :" , w.lemmatize( "a" ))
输出:
rocks : rock
corpora : corpus
better : good
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。
推荐阅读
- Python NLTK的词法化用法示例
- Python Kivy线画布(Canvas)用法实例
- Python使用sklearn的线性回归详细指南
- Python如何在Kivy中使用多个KV文件
- Python使用keras进行图像分类项目示例
- Python使用Tkinter的贷款计算器详细介绍
- 去除Proxmox VE登陆时“无有效的订阅”提示
- 微软免费工具集 PowerToys版本已更新!
- (centos7-x86)编译安装zabbix6.0LTS+Mariadb10.5+ngin1.2x+php7.4