先决条件:词干简介
词干是产生词根/基词形态变异的过程。提取程序通常称为提取算法或提取程序。词干算法将单词”
chocolates”
, “
chocolatey”
, “
choco”
减少到词根词根, “
chocolate”
和”
retrieval”
, “
retrieved”
, “
retrieves”
减少到词干”
retrieve”
。
Some more example of stemming for root word "like" include:->
"likes"
->
"liked"
->
"likely"
->
"liking"
提取错误:
词干分析主要有两个错误-过度提取和提取不足。当两个单词词根不同而词干相同时, 就会发生词干过度错误。当两个词的词根不相同但词干不同时, 就会发生词干不足。
词干的应用是:
- 词干用于诸如搜索引擎之类的信息检索系统中。
- 它用于确定领域分析中的领域词汇。
以下是使用NLTK的词干实现:
【Python用NLTK提取单词示例】代码1:
# import these modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenizeps = PorterStemmer()# choose some words to be stemmed
words = [ "program" , "programs" , "programer" , "programing" , "programers" ]for w in words:
print (w, " : " , ps.stem(w))
输出如下:
program:program
programs:program
programer:program
programing:program
programers:program
代码2:
句子中的词干
# importing modules
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenizeps = PorterStemmer()sentence = "Programers program with programing languages"
words = word_tokenize(sentence)for w in words:
print (w, " : " , ps.stem(w))
输出:
Programers:program
program:program
with:with
programing:program
languages:languag
首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。
推荐阅读
- Python Kivy中的StackLayout用法示例
- Python字符串串联用法示例介紹
- Python字符串插值用法示例
- Python字符串方法|S2(len,count,center,ljust,rjust,isalpha,isalnum,isspace和join)
- Python字符串方法|设置S3(strip,lstrip,rstrip,min,max,maketrans,translate,replace和expandtabs)
- Python字符串介绍和用法指南
- Python如何在Kivy中切换小部件()
- Python使用.kv文件在Kivy中切换小部件
- Spring 源码学习扩展功能 下篇