携程酒店反爬携程酒店反爬

携程的反爬主要是列表页翻页是ajax加载的，需要调用携程的api，抓包发现，需要传递几十个参数，一开始被吓到了，到了后来，发现大部分参数可以省略，剩下的也都是非加密的，直接调用就行了
【携程酒店反爬】只需要传递7个参数：

def get_allpages(self,response): tree = etree.HTML(response.text) url_name = response.save url_e = re.findall(r'(/hotel/[a-z]+\d+)\?time=', response.url)[0]name = url_name[url_e] try: pages = tree.xpath('//div[@class="c_page_list layoutfix"]/a[@rel="nofollow"]/text()')[0] pages = int(pages) except: pages = 1 # python2 import urllib print(name) name_code = urllib.quote(name.decode('utf-8').encode('utf-8')) city_id = re.findall(r'/hotel/[a-z]+(\d+)\?time=', response.url)[0] city_py = re.findall(r'/hotel/([a-z]+)\d+\?time=',response.url)[0] for i in range(1,pages+1): url = 'http://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx?time={}'.format(time.time()) formdata = https://www.it610.com/article/{"__VIEWSTATEGENERATOR": "DB1FBB6D", "cityName": name_code, # "StartTime": "2018-03-14", # "DepTime": "2018-03-15", "RoomGuestCount": "1,1,0", "operationtype": "NEWHOTELORDER", "cityId": city_id, "cityPY": city_py, # "cityCode": "0571", # "cityLat": "30.2799952044", # "cityLng": "120.1616127798", # "checkIn": "2018-03-14", # "checkOut": "2018-03-15", "page": i, } ua = UserAgent() headers = { 'User-Agent':ua.random }self.crawl(url,method='POST', data=https://www.it610.com/article/formdata,headers=headers,proxy=proxy_util.random_proxy(),retries=10,callback=self.response_parse,save={'name':name})

携程酒店反爬

推荐阅读

冬月是农历几月份农历的冬月是几月

陌生人社交软件分析,可以给陌生人打电话的社交软件

南京交通职业技术学院怎么样好不好南京交通职业技术学院怎么样

宝宝的腿是弯曲的，这种现象正常吗？会不会影响宝宝下肢的发育？

如何看翡翠的真假

成语小秀才192关攻略 192关答案是什么

骨干教师申请书

Java集合练习题——从控制台输入若干个字母放入集合中，将这些字母排序后（忽略大小写）打印出来

mongodb显示所有数据库 mongodb开启数据库

榴莲可以放冰箱冷藏吗

如何保养上海罗杰杜彼自动机械表

如何取消安卓系统更新提示更新提示信息吗,系统更新怎么操作?

王者六字名字温柔女生王者六字名字温柔

海尔电热水器质量好不好海尔热水器怎么样

ocr，信息技术中OCR是什么

红麻薯放冰箱冷藏好吗麻薯要放冰箱冷藏吗

大金中央空调不启动解决故障排除图解,这些方面需要注意了

核心交换机接入路由器配置华为三层交换机配置实例

刘备封黄忠为后将军，关羽为何要破口大骂?

云顶之弈卡莎阵容推荐云顶之弈卡莎阵容怎么搭配