零基础入门NLP-Task4|零基础入门NLP-Task4 基于深度学习的文本分类1 零基础入门NLP-Task4基于深度学

零基础入门NLP-新闻文本分类【Task4】

Task4 基于深度学习的文本分类1

学习目标
文本表示方法
基于FastText的文本分类
如何使用验证集调参
本章小结

Task4 基于深度学习的文本分类1 学习目标

学习FastText的使用和基础原理
学会使用验证集进行调参

文本表示方法 【零基础入门NLP-Task4|零基础入门NLP-Task4 基于深度学习的文本分类1】FastText 是一种典型的深度学习词向量的表示方法，它非常简单通过 Embedding 层将单词映射到稠密空间，然后将句子中所有的单词在 Embedding 空间中进行平均，进而完成分类操作。
FastText 使用词袋以及 n-gram 袋表征语句，使用子字(subword)信息，并通过隐藏表征在类别间共享信息,另外采用一个softmax层级来加速运算过程。
FastText 的架构和 word2vec 中的CBOW的架构类似。
Continuous Bog-Of-Words的模型框架：

文章图片

FastText 的模型框架：

FastText在文本分类任务上，是优于TF-IDF的：

FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类
FastText学习到的Embedding空间维度比较低，可以快速进行训练

以下是使用keras实现的FastText网络结构：

# coding:utf-8 from __future__ import unicode_literalsfrom keras.models import Sequential from keras.layers import Embedding from keras.layers import GlobalAveragePooling1D from keras.layers import DenseVOCAB_SIZE = 2000 EMBEDDING_DIM = 100 MAX_WORDS = 500 CLASS_NUM = 5def build_fastText(): model = Sequential() # 通过 embedding 层，我们将词汇映射成 EMBEDDING_DIM 维向量 model.add(Embedding(VOCAB_SIZE, EMBEDDING_DIM, input_length=MAX_WORDS)) # 通过 GlobalAveragePooling1D ，我们平均了文档中所有词的 embedding model.add(GlobalAveragePooling1D()) # 通过输出层 Softmax 分类（真实的 fastText 这里是分层 Softmax），得到类别概率分布 model.add(Dense(CLASS_NUM, activation='softmax')) # 定义损失函数、优化器、分类度量指标 model.compile(loss='categorical_crossentropy', optimizer='SGD', metrics=['accuracy']) return modelif __name__ == '__main__': model = build_fastText() print(model.summary())

基于FastText的文本分类使用 FastText 对赛题的新闻数据进行文本分类

import pandas as pd from sklearn.metrics import f1_score# 转换为FastText需要的格式 train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000) train_df['label_ft'] = '__label__' + train_df['label'].astype(str) train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')import fasttext model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2, verbose=2, minCount=1, epoch=25, loss="hs")val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']] print(f1_score(train_df['label'].values[-5000:].astype(str), val_pred, average='macro'))

此时数据量比较小得分为0.82，当不断增加训练集数量时，FastText的精度也会不断增加5w条训练样本时，验证集得分可以到0.89-0.90左右。
如何使用验证集调参在使用TF-IDF和FastText中，有一些模型的参数需要选择，这些参数会在一定程度上影响模型的精度，那么如何选择这些参数呢？

通过阅读文档，要弄清楚这些参数的大致含义，那些参数会增加模型的复杂度
通过在验证集上进行验证模型精度，找到模型在是否过拟合还是欠拟合

“交叉验证法”（cross validation）先将数据集 D D D划分为 k k k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从 D D D中通过分层采样得到。然后，每次用 k ? 1 k-1 k?1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得 k k k组训练/测试集，从而可进行 k k k次训练和测试，最终返回的是这 k k k个测试结果的均值。显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于 k k k的取值，因此交叉验证法也成为“ k k k折交叉验证”。
这里我们使用10折交叉验证，每折使用9/10的数据进行训练，剩余1/10作为验证集检验模型的效果。这里需要注意每折的划分必须保证标签的分布与整个数据集的分布一致。

label2id = {} for i in range(total): label = str(all_labels[i]) if label not in label2id: label2id[label] = [i] else: label2id[label].append(i)

通过10折划分，我们一共得到了10份分布一致的数据，索引分别为0到9，每次通过将一份数据作为验证集，剩余数据作为训练集，获得了所有数据的10种分割。不失一般性，我们选择最后一份完成剩余的实验，即索引为9的一份做为验证集，索引为1-8的作为训练集，然后基于验证集的结果调整超参数，使得模型性能更优。
本章小结本章介绍了FastText的原理和基础使用，并进行相应的实践。然后介绍了通过10折交叉验证划分数据集。