python结巴分词函数 python 结巴分词

在python 环境下 , 使用结巴分词,自动导入文本,分词,提取关键词.脚本 大侠给个# -*- coding: utf-8 -*-
import jieba
importjieba.posseg as pseg
importjieba.analyse
#jieba.load_userdict('userdict.txt')#jieba默认有一个dict.txt词库python结巴分词函数,但可以根据自己需要加入自己的词条
str1 = "训练一个可进行N维分类的网络的常用方法是使用多项式逻辑回归"
str2 = "可以尝试修改网络架构来准确的复制全连接模型"
str3 = "模型的目标函数是求交叉熵损失和所有权重衰减项的和python结巴分词函数,loss()函数的返回值就是这个值"
seg_list = jieba.cut(str1,cut_all =True) #全模式
print("/".join(seg_list))
result = pseg.cut(str1)
result2 = jieba.cut(str2)#精准模式
result3 = jieba.analyse.extract_tags(str3,4)#关键词提取
result4 = jieba.cut_for_search(str3)#搜索引擎模式
for w in result:
print(w.word,w.flag)
print(" ".join(result2))
print(" ".join(result3))
print(" ".join(result4))
python中怎样处理汉语的同义词用结巴分词python中文分词:结巴分词
中文分词是中文文本处理的一个基础性工作python结巴分词函数,结巴分词利用进行中文分词 。其基本实现原理有三点:
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用python结巴分词函数了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用python结巴分词函数了基于汉字成词能力的HMM模型 , 使用了Viterbi算法
安装(Linux环境)
【python结巴分词函数 python 结巴分词】下载工具包,解压后进入目录下 , 运行:python setup.py install
模式
默认模式,试图将句子最精确地切开,适合文本分析
全模式,把句子中所有的可以成词的词语都扫描出来 , 适合搜索引擎
接口
组件只提供jieba.cut 方法用于分词
cut方法接受两个输入参数:
第一个参数为需要分词的字符串
cut_all参数用来控制分词模式
待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list
实例
#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("python结巴分词函数我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)
如何利用Python对中文进行分词处理python做中文分词处理主要有以下几种:结巴分词、NLTK、THULAC
1、fxsjy/jieba
结巴的标语是:做最好的 Python 中文分词组件,或许从现在来看它没做到最好,但是已经做到了使用的人最多 。结巴分词网上的学习资料和使用案例比较多,上手相对比较轻松,速度也比较快 。
结巴的优点:
支持三种分词模式
支持繁体分词
支持自定义词典
MIT 授权协议
2、THULAC:一个高效的中文词法分析工具包
前两天我在做有关于共享单车的用户反馈分类 , 使用jieba分词一直太过零散 , 分类分不好 。后来江兄给我推荐了THULAC: 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。THULAC的接口文档很详细,简单易上手 。
THULAC分词的优点:
能力强 。利用规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大 。

推荐阅读