Python(文本分类)
计算文档d属于类别或类别c的概率的公式,表示为P(c | d)。
我们已经将P(c | d)的标准公式(因为它在许多论文中使用)转换为数字稳定的形式。
我们在Python中使用Naive Bayes分类器进行实现。
Python是文本分类的理想选择,因为它具有强大的字符串类和强大的方法。此外,Python的正则表达式模块为用户提供了超越其他编程语言的工具。
唯一的缺点可能是这个Python实现没有针对效率进行调整。
Python实现
警告:实现是在Python 3中,它与Python 2.x不兼容!
文件表示
文档表示基于单词模型包,如下图所示:
文章图片
需要进口
我们的实现需要正则表达式模块re和os模块:
import re,os
【Python(文本分类)】
BagOfWords类
文章图片
文章图片
文件类
文章图片
文章图片
DocumentClass类
DocumentClass类是Document类的类。它继承自我们的Document类。
文章图片
Pool 类
池是类,学习和保存文档类:
文章图片
文章图片
使用分类器
为了能够学习和测试分类器,我们将提供 “学习和测试集下载”。NaiveBayes模块由我们目前提供的代码组成,但为了方便起见,它可以下载为NaiveBayes.py 学习和测试集包含六个类别标记的(旧)笑话:“clinton”,“lawyer”,“math” ,“医疗”,“音乐”,“性”。
文章图片
关注后回复【入群】,和大家一起学习
商务合作/文章转载/投稿
请加微信:tech_better_me
文章图片
推荐阅读
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Python(pathlib模块)
- python青少年编程比赛_第十一届蓝桥杯大赛青少年创意编程组比赛细则
- Python数据分析(一)(Matplotlib使用)
- jQuery插件