Python(文本分类)

计算文档d属于类别或类别c的概率的公式,表示为P(c | d)。

我们已经将P(c | d)的标准公式(因为它在许多论文中使用)转换为数字稳定的形式。

我们在Python中使用Naive Bayes分类器进行实现。

Python是文本分类的理想选择,因为它具有强大的字符串类和强大的方法。此外,Python的正则表达式模块为用户提供了超越其他编程语言的工具。

唯一的缺点可能是这个Python实现没有针对效率进行调整。


Python实现


警告:实现是在Python 3中,它与Python 2.x不兼容!


文件表示

文档表示基于单词模型包,如下图所示:



Python(文本分类)
文章图片

需要进口



我们的实现需要正则表达式模块re和os模块:


import re,os

【Python(文本分类)】

BagOfWords类

Python(文本分类)
文章图片


Python(文本分类)
文章图片




文件类


Python(文本分类)
文章图片
Python(文本分类)
文章图片




DocumentClass类

DocumentClass类是Document类的类。它继承自我们的Document类。


Python(文本分类)
文章图片



Pool 类

池是类,学习和保存文档类:


Python(文本分类)
文章图片

Python(文本分类)
文章图片



使用分类器


为了能够学习和测试分类器,我们将提供 “学习和测试集下载”。NaiveBayes模块由我们目前提供的代码组成,但为了方便起见,它可以下载为NaiveBayes.py 学习和测试集包含六个类别标记的(旧)笑话:“clinton”,“lawyer”,“math” ,“医疗”,“音乐”,“性”。


Python(文本分类)
文章图片





关注后回复【入群】,和大家一起学习


商务合作/文章转载/投稿

请加微信:tech_better_me
Python(文本分类)
文章图片

    推荐阅读