?? 基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
基于汉字字频特征实现99.99%准确率的新闻文本分类器(三)
简介
文本分类系列文章,详细并且公开源码的一步一步实现一个新闻文本分类器,准确率搞的夸张一点99.99%并且不是过拟合的99.99%而是具备良好推广性的99%,主要技术特点是采用汉字字频作为特征,和SVM、多层神经网络的应用。
目标
对新闻文本进行二分类,即判断一篇新闻是属于军事类还是非军事类。新闻定义为50个汉字以上的短文,而不是一句话新闻。
99%以上的分类准确率,不陷于局部最优解,能够对语料库里的瑕疵数据进行容错。
具备良好的推广性,即使用训练集以外的海量新闻文本作为测试用例,仍具备不低于98%的分类准确率。
方法
现在自然语言处理做中文文本分类,多是采用词袋模型提取文本特征值。需要切词(分词)去停止符,选取关键词等步骤,对于分词又有多种中文分词器选择,作为特征的关键词选择更是有多种方法。汉字不同于字母文字,字母文字必须由字母组成单词才能表达语义,基于汉字是表义文字而不是表音文字,笔者认为直接采用字频作为文本的特征,比词频更能精确描述文本的内容。所以做了一个尝试,使用文章的汉字字频和常见的算法,希望能得到一个比现有模型更好的文本分类器。使用文本汉字字频,而不是词频有这些优点:无需切词,分词,去停止词,选取关键词等步骤;
准确率高。
步骤
这个系列的文章,将采用开门见山的步骤,即
1、用开源的源代码抽取特征数据作为训练/测试集
2、用开源的人工智能算法,对训练集获得一个初步的分类成绩
3、详解源代码,并优化特征数据的处理
4、实现99.99%的分类准确率
5、神秘提升,****加成
好了,说了这么多,让我们开始行动吧。
数据准备
此次分类器的数据,采用搜狗文本分类语料库 http://www.sogou.com/labs/dl/c.html
文章图片
请下载完整版(107M)的文件 http://www.sogou.com/labs/sogoudownload/SogouC.tar.gz
但是在笔者尝试下载的时候,发现此文件已经损坏,下载到一个49M的压缩包。只能解压缩出前4万3千个文本文件。百度网盘完整备份,http://pan.baidu.com/s/1qXLo9cS
ClassFile.7z,MD5 【1BF6D63389C2AF844A299D0D62621FBA】 将下载的数据压缩文件解压缩,可以看到如图所示,共八万个文本文件,分别属于十个类别。
文章图片
下节预告
下节,将会提供两个程序的源代码,项目采用C#语言编写,请在计算机上安装好
Visual Studio 2013 社区免费版,当然,Visual Studio 2012或者Visual Studio 2015的社区版/Express桌面版或者更高版本也可以兼容,只需一个即可。
下载地址:https://www.visualstudio.com/zh-cn/downloads/download-visual-studio-vs.aspx
我们会用这些源代码,生成程序并从文本文件中提取字频特征,并一睹99.xx%的风采。
八万分之八的错误,哦,有些挑战。
【基于汉字字频特征实现99.99%准确率的新闻文本分类器(一)】基于汉字字频特征实现99.99%准确率的新闻文本分类器(二)
推荐阅读
- 人脸识别|【人脸识别系列】| 实现自动化妆
- 人工智能|干货!人体姿态估计与运动预测
- 推荐系统论文进阶|CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)
- Python专栏|数据分析的常规流程
- 历史上的今天|【历史上的今天】2 月 16 日(世界上第一个 BBS 诞生;中国计算机教育开端;IBM 机器人赢得智能竞赛)
- 网络|一文彻底搞懂前端监控
- 游戏|2022年如何学习前端前沿技术,破卷而出()
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍