python对网页文本的格式化实例方法
1、一个网页通常包含文本信息。对于不同的文本类型,我们可以选择合适的HTML语义元素进行标记。
2、em元素用于标记和强调部分内容,small元素用于注释和署名文本。
实例
论语学而篇第一作者:孔子1()
本篇引语《学而》是《论语》第一篇的篇名。《论语》中各篇一般都是以第一章的前二三个字作为该篇的篇名。《学而》一篇包括16章,内容涉及诸多方面。其中重点是「吾日三省吾身」;「节用而爱人,使民以时」;「礼之用,和为贵」以及仁、孝、信等道德范畴。
原文子曰:「学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知,而不愠,不亦君子乎?」
知识点扩展:
Python int与string之间的转化
string–>int2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL
1、10进制string转化为int
int(‘12')
2、16进制string转化为int
int(‘12', 16)
int–>string
1、int转化为10进制string
str(18)
2、int转化为16进制string
hex(18)
3 . 增加了一个循环之后,可以打印所有的爬取结果
from lxml import etreeimport requestsimport stringurl = 'http://sh.lianjia.com/ershoufang/'region = 'pudong'price = 'p23'finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())returnfor i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)
4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变
【python对网页文本的格式化实例方法】以上就是python对网页文本的格式化实例方法的详细内容,更多关于python爬虫中网页文本的格式化的资料请关注脚本之家其它相关文章!
推荐阅读
- 布丽吉特,人生绝对的赢家
- 进必趋|进必趋 退必迟,问起对 视勿移
- 对称加密和非对称加密的区别
- python学习之|python学习之 实现QQ自动发送消息
- 对抗抑郁最好的方法
- 逻辑回归的理解与python示例
- 装聋作哑,关系融洽
- 社保代缴公司服务费包含哪些
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum