常用网页正文提取方法总结笔记

【常用网页正文提取方法总结】最近研究这块内容头发快掉完，写一些东西来梳理梳理，以后写论文可能用得上。
1.基于模板的方法
依赖html文档内部结构特征来完成数据抽取。常用的一些有正则、xpath、selector css、beautifulsoup等等。
优点：针对特定的网页模式，实现简单（可以自己写或者借助半自动工具Google开发者工具、xpath helper插件等），定位准确。
缺点：对于不同的网页模式或者网页结构需要重写模板，且维护代价很大，健壮性很差。
1.1
另外一种基于模板的方法是将同源页面的相同部分去掉从而获取差异的部分提取出来。通用性很好但是会增加丢失页面正文的可能性，比如两篇文章讨论部分相同部分会被误删，或者是不同的噪声会被保留。类似成熟的算法有des和roadrunner等。
2.基于统计的方法
从网页标签序列中找出相应的文本序列，由于网页正文与非网页正文的长度、标签数量，继而统计出文本密度、链接密度，以统计的方式提取正文。
优点：实现简单，不需要具体网站具体分析，通用性较好。
缺点：识别准确率有限，可能会提取到正文附近文字例如版权声明、备注等。
3.基于深度学习、机器学习、神经网络的方法
（咱也没用过，咱也不敢说，反正牛逼就完事儿了。）
优点：提取准确。
缺点：训练数据庞大，较前面几种更复杂。
4.网页信息提取开源库
使用库里编写好的方法直接调用，提取标题、正文、图片等。我使用过的是Goose-extractor和newspapers两个库，在python3.5环境下。
优点：方便、快速、较准确。
缺点：为什么说较准确，因为我在使用提取某种特殊的网页时候出了错误！这个网页正文之间穿插了一些图片，然鹅goose只提取了正文图片隔开前面的文字，有待改进。
5.基于视觉分块的提取算法
从用户对网页的视觉感受出发，依靠网页中的节点样式对页面进行分块，寻找最低层容器节点的各个文本节点进行合并，计算信息量并比较最低层容器节点与其兄弟节点、父节点的信息量，从而选择出能构成文本块的节点。
优点：准确性较高。
缺点：计算量过大，且一些网页分块过散，视觉特征复杂，布局不规范等都会影响提取。

常用网页正文提取方法总结

推荐阅读

婕珞芙晨露蔷薇面膜怎么样婕路芙晨露蔷薇面膜可以分两次用吗

猪肉各部位的区别猪肉哪个部位是一等肉

最早指南车发明人指南车发明者

银天下行情分析系统软件下载

redis跳跃表查找数据的过程 redis哪块用到跳表

华为荣耀play3有没有指纹解锁（华为荣耀play3有指纹解锁吗）

amdk15支持什么cpu，amdk15主板支持的cpu

女性揉地筋的好处主要有这些好处

汽车原厂互联映射什么意思

常年不在家冰箱怎么办？如何维护和保养？

怎样识别变频空调和定频空调空调开一天多少钱

七绝（云水一梦惹东风）

新办企业个税申报密码申报个税在哪个软件，企业个税能用手机申报吗

运动会通讯稿300字

美的SC861A吸尘器不充电的解决方法

刘海屏|iPhone 14强势曝光：是不是后悔手里的iPhone 13买早了？

iphone|从12999元跌至10488元，12G+512G，华为顶级旗舰现货供应不用抢购

绝地求生刺激战场国际服绝地求生刺激战场国际服下载方法有哪些

无症状感染者会一直不发病吗

泰顺云雾茶是什么茶泰顺雾云农庄