【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
Datawhale零基础入门NLP赛事-Task2
- 数据读取
- 数据分析
- 作业
本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
数据读取
文章图片
数据分析
- 文本长度分布
文章图片
结论:文本的平均长度为907个字符,最长的文本有57921个字符,最短的只有两个。 - 文本长度直方图
文章图片
结论:由图可见,绝大多数的文本长度不超过1w字符。 - 类别分布
文章图片
结论:由上图可以得出,数量最多的是0(科技)类的文本,最少的是13(星座)类文本。 - 类别分布
文章图片
结论:训练集中不同的字符共6869个,数量最多的5个字符分别是’3750’,‘648’,‘900’,‘3370’,‘6122’,数量最少的字符是’3133’。 - 句子词频统计
文章图片
结论:‘3750’, ‘900’, '648’这三个字符几乎在每个文本都出现,因此可能是标点符号。
- 文本句子数
文章图片
结论:对每个文本统计可能的标点符号数,得到句子数量。 - 按标签的句子词频统计
文章图片
结论:根据每一种标签对字符频率进行统计,并且排除可能是标点符号的字符,统计出每类文本出现最多的字符,可能成为分类的标准。
推荐阅读
- 宽容谁
- 我要做大厨
- EffectiveObjective-C2.0|EffectiveObjective-C2.0 笔记 - 第二部分
- 增长黑客的海盗法则
- 画画吗()
- 2019-02-13——今天谈梦想()
- 远去的风筝
- 三十年后的广场舞大爷
- 叙述作文
- 20190302|20190302 复盘翻盘