【自然语言处理|新闻文本分类之旅 Word2Vec_Corpus】
天池-零基础入门NLP
- 新闻文本分类
- 预训练Word2vec语料
- 导入相关库
- 读取数据
- 加载语料
- 训练语料
- 保存模型
新闻文本分类 预训练Word2vec语料 导入相关库
import numpy as np
import pandas as pd
from gensim.models import word2vec
读取数据
train_df = pd.read_csv('../data/train_set.csv', sep='\t')
test_df = pd.read_csv('../data/test_a.csv', sep='\t')
加载语料
list_data = https://www.it610.com/article/list(pd.concat((train_df['text'], test_df['text']), axis=0, ignore_index=True).map(lambda x:x.split(' ')))
训练语料
model = word2vec.Word2Vec(list_data, min_count=1, window=10, size=120, seed=7)
model.init_sims(replace=True)
保存模型
# 保存模型,供日後使用
model.save("../emb/word2vec.h5")
model = word2vec.Word2Vec.load("../emb/word2vec.h5")
#输入与“3370”相近的10个词
for key in model.wv.similar_by_word('3370', topn =10):
print(key)
推荐阅读
- 人工智能|hugginface-introduction 案例介绍
- 中文分词预处理之N最短路径法小结(转)
- 深度学习|2019年CS224N课程笔记-Lecture 17:Multitask Learning
- 深度学习|2018年度总结和2019年度计划
- BERT微调做中文文本分类
- 【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Bert
- 【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec
- 自然语言处理|答案选择|语义匹配任务目前表现最好的几个模型
- 深度学习|NLP重铸篇之BERT如何微调文本分类
- NLP实践-Task1