最近陆陆续续尝试了一些解析html的方法,场景不同,说不好孰优孰劣,请自行选择
版本一(goose):
py2版本: https://github.com/grangier/python-goose
py3版本:https://github.com/goose3/goose3
【提取html网页正文信息】版本二(boilerpipe):
https://github.com/misja/python-boilerpipe
版本三(cx-extractor-python):
https://github.com/chrislinan/cx-extractor-python
版本四(mercury-parser):
https://github.com/postlight/mercury-parser