jieba|jieba分词和高频词提取示例代码 jieba|NLP

import jieba import jieba.analyse as aly# 中文分词工具jieba sent = '中文分词是文本处理不可或缺的一步！' seglist = jieba.cut(sent, cut_all=True) print("全模式", '/'.join(seglist)) # 全模式中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步// seglist = jieba.cut(sent) print("精确模式", '/'.join(seglist)) # 精确模式中文/分词/是/文本处理/不可或缺/的/一步/！ seglist = jieba.cut_for_search(sent) print("搜索引擎模式", '/'.join(seglist)) # 中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/！# 高频词读取TF/IDFcontent = "自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。" \ "因此，自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战，包括自然语言理解，" \ "因此，自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解，即计算机源于人为或自然语言输入的意思，" \ "和其他涉及到自然语言生成."# 加载自定义idf词典\n", aly.set_idf_path('D:\\yangyang\\spy\\nltksample\\103\\idf.txt.big') # 加载停用词典\n", aly.set_stop_words('.\\stop_words.utf8') # 第一个参数：待提取关键词的文本\n", # 第二个参数：返回关键词的数量，重要性从高到低排序\n", # 第三个参数：是否同时返回每个关键词的权重\n", # 第四个参数：词性过滤，为空表示不过滤，若提供则仅返回符合词性要求的关键词\n" keywords = aly.extract_tags(content, topK=10, withWeight=True, allowPOS=()) # 分别为关键词和相应的权重\n", for item in keywords: print(item[0], item[1])# 自然语言 2.0790900005043476 # NLP 0.5197725001260869 # 计算机 0.5197725001260869 # 领域 0.5197725001260869 # 人机交互 0.5197725001260869 # 挑战 0.5197725001260869 # 理解 0.5197725001260869 # 处理 0.4705091875965217 # 涉及 0.3839134341652174 # 人工智能 0.25988625006304344# # 第一个参数：待提取关键词的文本\n", #"# 第二个参数：返回关键词的数量，重要性从高到低排序\n", #"# 第三个参数：是否同时返回每个关键词的权重\n", #"# 第四个参数：词性过滤，为空表示过滤所有，与TF—IDF不一样！\n keywords = aly.textrank(content, topK=10, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v')) # 分别为关键词和相应的权重\n", print(',,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,') for item in keywords: print(item[0], item[1])# 涉及 1.0 # 计算机 0.9618169519358478 # 处理 0.8124660402732825 # 理解 0.7885898958379202 # 挑战 0.7833575495518058 # 人机交互 0.7343470452632993 # 语言学 0.727536034596871 # 人类 0.6290562193534068 # 人工智能 0.5809911385488661 # 关注 0.577881611632419

【jieba|jieba分词和高频词提取示例代码】

jieba|jieba分词和高频词提取示例代码

推荐阅读

我的世界探索的时光哪42个我的世界探索的时光生物群系介绍

抖音茶言麦是什么梗

凤梨和菠萝到底是不是同一种东西？

spek音频的频谱分析

如何实现低价宣传服务器？低价宣传服务器怎么做

《植物大战僵尸》生存模式屋顶困难级

佳能5d3如何取消连拍佳能5d3怎么取消连拍

清明节什么人不适合上坟清明上坟一定要兄弟姐妹一起去吗

ahp层次分析法下载,AHP决策分析法

猫多大可以开始吃肉

迎春祝福语

如何使用戴尔服务器的定位灯？戴尔服务器定位灯怎么使用

代数式|已知x＞0，求1+(x^2+1)/x的最小值

世界上有苅族吗

昌河福瑞达m50s用什么型号机油昌河福瑞达m50s油箱多大

逻辑综合与时序分析,归纳和演绎,分析和综合,逻辑和历史

没有蜂王的蜜蜂怎么养没有蜂王的蜂子怎么养

投稿|?对话导演周子陽：“《乌海》可能会是我拍的最残酷的电影”

戴森电风扇哪里好用戴森电风扇哪里好

computed|computed set get