微信公众号文章怎么采集,有没有什么软件呢?( 三 )


微信公众号文章怎么采集,有没有什么软件呢?

文章插图
raw字段:行数 。同keywords字段 。取全局变量title中“#”和“*”中间部分 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
gettime字段:网页采集时间 。采集内容选择【时间信息】-【网页获取时间】
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
url字段:网页地址 。采集内容选择【网页信息】-【网页地址】
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
web字段:网站名 。脚本返回“微信公众号” 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
author字段:查看页面源码 。打开浏览器中该页面 。点击F12 。点击指针按钮 。如下图所示 。用指针按钮选中作者 。这时在右侧出现对应源码内容 。说明城市分类链接在【id=js_name】的节点下 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
temp_name字段:模板名称 。采集内容选择【采集任务信息】-【任务名称】
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
脚本如下图所示:
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
⑤以上完成全部字段配置 。效果预览如下:
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
如果采集预览有字段显示异常 。可以将爬虫中的模拟浏览器版本设置为:IE浏览器9 。如下图所示 。之后再尝试 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
如果采集预览异常 。可打开前嗅 。咨询技术支持 。
三.采集步骤
模板配置完成 。采集预览没问题后 。可进行数据采集 。
①首先要建立采集数据表:
选择【数据建表】 。点击【表单列表】中该模板的表单 。在【关联数据表】中选择【创建】 。表名称自定义 。这里命名为wenzhang(注意命名不能用数字和特殊符号) 。点击【确定】 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
创建完成 。勾选数据表 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
②选择【数据采集】 。勾选任务名称 。点击【开始采集】 。则正式开始采集 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
③可以在【数据浏览】中 。选择数据表查看采集数据 。并可以导出数据 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
四.课后回顾
GetSearch():返回关键词列表中的关键词 。
微信公众号文章怎么采集,有没有什么软件呢?

文章插图
Search():反复调用来遍历关键词列表 。
FindClass(class名 。标签类型 。开始查找结点):当符合条件的class名称唯一时 。使用class名来查找结点 。
FindName(标签名,开始查找结点):当查找范围内 。符合条件的数据标签唯一时 。可以使用标签名称查找标签结点 。
GetTextAll(需要获取文本的结点,使用的字符编码):获取该html标签节点及所有子节点的可见文本 。
Child:孩子频道节点 。
StdUrl(base,strUrl):链接地址绝对转化 。base表示基链接地址 。strUrl表示待转化链接地址 。
Right(flag):返回字符串右边的字符串 。flag表示所取长度或起始字符(串) 。
Left(flag):返回字符串右边的字符串 。flag表示所取长度或起始字符(串)
Middle(pos,len):返回字符串的中间字符串 。pos表示起始位置或起始字符(串) 。len表示所取长度或终止字符(串) 。
其他观点:
如果有时间的话可以去手动采集 。没有时间可以建议使用大仙一键搬图软件 。真正实现一键采集 。

推荐阅读