【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析


Datawhale零基础入门NLP赛事-Task2

    • 数据读取
    • 数据分析
    • 作业
【【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析】
本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。
数据读取 【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
文章图片

数据分析
  1. 文本长度分布
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:文本的平均长度为907个字符,最长的文本有57921个字符,最短的只有两个。
  2. 文本长度直方图
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:由图可见,绝大多数的文本长度不超过1w字符。
  3. 类别分布
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:由上图可以得出,数量最多的是0(科技)类的文本,最少的是13(星座)类文本。
  4. 类别分布
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:训练集中不同的字符共6869个,数量最多的5个字符分别是’3750’,‘648’,‘900’,‘3370’,‘6122’,数量最少的字符是’3133’。
  5. 句子词频统计
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:‘3750’, ‘900’, '648’这三个字符几乎在每个文本都出现,因此可能是标点符号。
作业
  1. 文本句子数
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:对每个文本统计可能的标点符号数,得到句子数量。
  2. 按标签的句子词频统计
    【学习笔记】自然语言处理实践(新闻文本分类)-|【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析
    文章图片

    结论:根据每一种标签对字符频率进行统计,并且排除可能是标点符号的字符,统计出每类文本出现最多的字符,可能成为分类的标准。

    推荐阅读