Python用NLTK提取单词示例

先决条件:词干简介
词干是产生词根/基词形态变异的过程。提取程序通常称为提取算法或提取程序。词干算法将单词” chocolates” , “ chocolatey” , “ choco” 减少到词根词根, “ chocolate” 和” retrieval” , “ retrieved” , “ retrieves” 减少到词干” retrieve” 。

Some more example of stemming for root word "like" include:-> "likes" -> "liked" -> "likely" -> "liking"

提取错误:
词干分析主要有两个错误-过度提取和提取不足。当两个单词词根不同而词干相同时, 就会发生词干过度错误。当两个词的词根不相同但词干不同时, 就会发生词干不足。
词干的应用是:
  • 词干用于诸如搜索引擎之类的信息检索系统中。
  • 它用于确定领域分析中的领域词汇。
词干是可取的, 因为它可能会减少冗余, 因为在大多数情况下, 词干和它们的变形/衍生词表示相同的词。
以下是使用NLTK的词干实现:
【Python用NLTK提取单词示例】代码1:
# import these modules from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenizeps = PorterStemmer()# choose some words to be stemmed words = [ "program" , "programs" , "programer" , "programing" , "programers" ]for w in words: print (w, " : " , ps.stem(w))

输出如下:
program:program programs:program programer:program programing:program programers:program

代码2:
句子中的词干
# importing modules from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenizeps = PorterStemmer()sentence = "Programers program with programing languages" words = word_tokenize(sentence)for w in words: print (w, " : " , ps.stem(w))

输出:
Programers:program program:program with:with programing:program languages:languag

首先, 你的面试准备可通过以下方式增强你的数据结构概念:Python DS课程。

    推荐阅读