微信公众号文章怎么采集,有没有什么软件呢?( 二 )


文章插图
如果采集预览异常 。可打开前嗅 。咨询技术支持 。
4.链接抽取
这一步是在获取的翻页链接中 。提取每页全部微信文章的链接:
①在原有模板基础上 。右键选择【添加模板】 。并新建一个链接抽取 。如下图所示:

微信公众号文章怎么采集,有没有什么软件呢?

文章插图
②查看页面源码 。打开浏览器中该页面 。点击F12 。点击指针按钮 。如下图所示 。用指针按钮选中所需要的文章链接 。这时在右侧出现对应源码内容 。说明城市分类链接在【target=_blank】节点下 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
③经过观察发现 。我们要找的是【target=_blank】节点中的href 。【target=_blank】节点是【class=news-list】的子节点中 。名为【h3】的节点的子节点 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
④具体配置脚本如下 。配置好脚本后点击右上角【保存】 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
⑤.采集预览如下所示:
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
如果采集预览没有出来 。可以打开前嗅 。咨询技术支持 。
5.数据抽取
①链接抽取完成进入数据页 。在原有模板基础上 。右键选择【添加模板】 。新添加的模板 。右键【添加数据抽取】 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
②此时要完成数据建表的工作:选择【数据建表】 。点击【采集数据表结构】中的【+】 。即可添加数据表 。名称可以自定义 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
③数据表配置完成 。选择【数据抽取】右侧数据属性配置 。表单选择刚建立的“微信公众文章”数据表 。则可看到表单中的字段在右侧显示 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
④需要配置哪一个字段 。点击该字段 。在右侧字段属性中配置即可 。选择脚本配置的字段 。在脚本窗口中进行代码配置 。
id字段:主键字段 。采集内容选择【主键】-【网页主键】 。主键为当前网页的MD5值 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
title字段:脚本如下所示
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
content字段:
浏览器打开文章页面 。查看页面源码 。打开浏览器中该页面 。点击F12 。点击指针按钮 。如下图所示 。用指针按钮选中文章正文 。这时在右侧出现对应源码内容 。说明城市分类链接在【class=rich_media_wrp】的节点下 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
用脚本表示为:
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
keywords字段:关键词字段 。该字段是用脚本处理的 。由于关键词字段仅是频道脚本中的局部变量 。且后期页面均没有出现 。所以需要将关键词字段赋值在全局变量中 。才能在数据抽取时将关键词字段提取出来 。此处将其赋值与全局变量title 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
同理 。数据表中需要采集当前数据在第几页出现 。而页面数据同样为翻页模板中的局部变量 。后面模板无法提取 。所以需要将当前翻页脚本中的页数记录在全局变量中 。同样将页数记录在title中以“#”与关键词分隔 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
当前数据出现在某页第几行 。页码已经记录在全局变量title中 。链接抽取中当前链接行数也是唯一出现的局部变量 。同样需要记录才能传值 。于是将行数也赋值在title中以“*”与页码分隔 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
所以最终记录在title中的值包含以下部分:
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
对于keywords字段来说 。取出全局变量title中“@”左边部分即可 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
page字段:页码 。同keywords字段 。取全局变量title中“@”和“#”中间部分 。

推荐阅读