语料库介绍 文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与检测等。
语料库说明 语料库数据包括:
[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息
【搜狗实验室文本分类语料库】
下载地址 搜狗分类语料库下载地址:http://www.sogou.com/labs/dl/c.html
分类编码对照表 C000007
汽车
C000008
财经
C000010
IT
C000013
健康
C000014
体育
C000016
旅游
C000020
教育
C000022
招聘
C000023
文化
C000024
军事
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 中文分词预处理之N最短路径法小结(转)
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|2018年度总结和2019年度计划
- BERT微调做中文文本分类
- 【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Bert
- 【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec
- 自然语言处理|答案选择|语义匹配任务目前表现最好的几个模型
- 深度学习|NLP重铸篇之BERT如何微调文本分类
- NLP实践-Task1