机器学习实现海量新闻自动分类机器学习实现海量新闻自动分

通过最佳实践帮助您实现上述案例效果
Step1：数据导入MaxCompute 1.1 创建需要上传的本地数据
新闻文本表：

字段名	含义	类型	描述
category	新闻类型	string	体育、女性、社会、军事、科技等
title	标题	string	新闻标题
content	内容	string	新闻内容

源数据：nlp_use
stop_words表：

字段名	含义	类型	描述
point	用户名	string	人
stop_words	标点符号	string	" " ,等

源数据：stop_words
1.2 创建MaxCompute表
1.2.1 开通MaxCompute
阿里云实名认证账号访问https://www.aliyun.com/product/odps ，开通MaxCompute，选择按量付费进行购买。

文章图片

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面
以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台，点击对应项目操作栏中的进入工作区

文章图片

1.2.3 创建表
点击菜单数据管理，右上新建表

文章图片

1.2.4 填写信息配置
在新建表页面中填写基础信息的各配置项，点击下一步

文章图片

在新建表页面中填写字段和分区信息的各配置项

文章图片

1.2.5 点击提交
新建表提交成功后，系统将自动跳转返回数据表管理界面，点击我管理的表即可看到新建表
1.3 导入本地文件
进入大数据开发套件控制台，点击对应项目的进入工作区，点击菜单数据开发-->导入-->导入本地数据

文章图片

选择目标表，并选择字段匹配方式，点击导入

文章图片

文件导入成功后，系统右上角将提示文件导入成功，同时可以执行select语句查看数据

文章图片

同样方法创建stop_words表
注意：如果原始字符集设GBK中文出现乱码，可改为UTF-8
Step2：机器学习中的数据准备进入机器学习管理控制台，点击对应项目的进入机器学习

文章图片

选择需要的租户及工作空间，点击“提交”

文章图片

进入机器学习页面后，右击我的实验点击新建空白实验，输入实验名和实验描述

文章图片

切换到组件栏，向画布中拖入读数据表，点击读数据表，在右侧表选择栏填入你的MaxCompute表

文章图片

文章图片

切换到字段信息栏，可以查看输入表的字段名、数据类型和前100行数据的数值分布

文章图片

Step3：数据探索流程实验流程图：

文章图片

3.1 增加序号列
本文的数据源输入是以单个新闻为单元，需要增加ID列来作为每篇新闻的唯一标识，方便下面的算法进行计算。
3.1.1 增加序列号
切换至组件栏，向画布中拖入数据合并-->增加序号列，将nlp_use源表的输出与增加序号列连接，点击增加序号列，在右侧字段设置中进行填写

文章图片

右击增加序列号点击执行后，查看数据

文章图片

3.1.2 类型转换
向画布中拖入数据合并-->类型转换，将增加序号列输入到类型转换中，点击类型转换，在右侧选择字段

文章图片

右击类型转换点击执行后，查看数据

文章图片

3.2 分词及词频统计
这两步都是文本挖掘领域最常规的做法，首先利用分词控件对于content字段，也就是新闻内容进行分词。去除过滤词之后（过滤词一般是标点符号及助语），对于词频进行统计。
3.2.1 分词
切换至组件栏，向画布中拖入文本分析-->Split Word，将类型转换的输出连接到Split Word的输入数据表中，点击Split Word，在右侧设置字段

文章图片

右击Split Word点击执行后，查看数据

文章图片

3.2.2 词频统计
切换至组件栏，向画布中拖入文本分析-->词频统计
3.3 停用词过滤
停用词过滤功能用于过滤输入的停用词词库，一般过滤标点符号以及对于文章影响较少的助语等。
3.3.1 添加读数据表
切换到组件栏，向画布中拖入读数据表，点击读数据表，在右侧表选择栏填入你的MaxCompute表

文章图片

右击读数据表点击执行，查看数据

文章图片

3.3.2 停用词过滤
切换至组件栏，向画布中拖入文本分析-->停用词过滤，将Split Word的输出和stop_words源表的输出分别与停用词过滤进行连接，点击停用词过滤，在右侧选择字段

文章图片

文章图片

右击停用词过滤点击执行，查看数据

文章图片

3.3.3 词频统计
向画布中拖入文本分析-->词频统计，将停用词过滤的输出表与词频统计连接，在右侧设置字段

文章图片

文章图片

右击词频统计点击执行，查看数据

文章图片

文章图片

3.4 文本主题挖掘
使用PLDA文本挖掘组件需要先将文本转换成三元形式，append_id是每篇新闻的唯一标识，key_value字段中冒号前面的数字表示的是单词抽象成的数字标识，冒号后面是对应的单词出现的频率。
3.4.1 三元组转kv
切换至组件栏，向画布中拖入文本分析-->三元组转kv,将词频统计的三元组输出与三元组转kv的输入表连接，点击三元组转kv，在右侧设置字段

文章图片

右击三元组转kv点击执行，查看数据

文章图片

文章图片

3.4.2 PLDA
在上一步完成了文本转数字的过程，下一步数据进入PLDA算法。PLDA算法又叫主题模型，算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题，PLDA有六个输出桩，第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。
切换至组件栏，向画布中拖入文本分析-->PLDA,将三元组转kv的输出表与PLDA连接，点击PLDA，在右侧进行字段和参数设置

文章图片

文章图片

右击PLDA点击执行后，查看数据

文章图片

3.4.3 SQL脚本
向画布中拖入工具-->SQL脚本，将PLDA的第五个输出桩与SQL脚本连接，点击SQL脚本，在右侧写SQL语句

select * from ${t1};

文章图片

右击SQL脚本点击执行后，查看数据

文章图片

3.5 结果分析和评估
3.5.1 K均值聚类
上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类，从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果，cluster_index表示的是每一类的名称。找到第0类，一共有docid为115，292，248，166四篇文章。
向画布中拖入机器学习-->聚类-->K均值聚类，将SQL脚本的输出与K均值聚类的输入数据连接，点击K均值聚类，在右侧进行字段和参数设置