网页爬虫|CURL的使用
* 安装
Windows环境安装
- 首先下载curl的安装包 官网:https://curl.haxx.se/download... 然后找到对应的系统版本
文章图片
- 配置环境变量
新建系统变量:
CURL_HOMED:curlcurl-7.71.1-win64-mingw (解压路径)
然后在PATH变量后面追加; %CURL_HOME%bin
文章图片
CMD(Windows+R打开cmd命令行)输入指令:curl --help
![image](/img/bVbKZsE)
4.检测是否乱码
CMD(Windows+R打开cmd命令行)输入指令:
curl www.baidu.com
文章图片
常用命令
- 下载单个文件(基本用法)
- 通过-o/-O选项保存下载的文件到指定的文件中:
-O:使用URL中默认的文件名保存文件到本地
文章图片
3.同时获取多个文件
文章图片
4.对CURL使用网络限速
通过--limit-rate选项对CURL的最大网络使用进行限制
![image](/img/bVbKZtd)
下载指定时间内修改过的文件当下载一个文件时,可对该文件的最后修改日期进行判断,如果该文件在指定日期内修改过,就进行下载,否则不下载。
该功能可通过使用-z选项来实现:
文章图片
5.CURL授权
在访问需要授权的页面时,可通过-u选项提供用户名和密码进行授权
![image](/img/bVbKZtz)
6.从FTP服务器下载文件
![image](/img/bVbKZtC)
7.从FTP服务器上传文件
![image](/img/bVbKZtD)
8.使用代理
curl -x 192.168.100.100:1080 http://www.baidu.com
9.只显示 HTTP 头
`curl -I http://www.codebelief.com `
10.自定义User-Agent
`curl -A “Mozilla/5.0 (Android;
Mobile;
rv:35.0) Gecko/35.0 Firefox/35.0” http://www.baidu.com `
11.自定义 header
`curl -H “Referer: www.example.com” -H “User-Agent: Custom-User-Agent” http://www.baidu.com `
12.POST 请求
POST 请求,-d 用于指定发送的数据,-X 用于指定发送数据的方式:
curl -d “userName=tom&passwd=123456” -X POST http://www.example.com/login
在使用 -d 的情况下,如果省略 -X,则默认为 POST 方式:
curl -d “userName=tom&passwd=123456” http://www.example.com/login
13.一些其他的参数
`-A/--user-agent设置用户代理发送给服务器
-b/--cookie
-c/--cookie-jar
-C/--continue-at
-D/--dump-header
-e/--referer 来源网址
-f/--fail 连接失败时不显示http错误
-o/--output 把输出写到该文件中
-O/--remote-name 把输出写到该文件中,保留远程文件的文件名
-r/--range
-s/--silent 静音模式。不输出任何东西
-T/--upload-file
-u/--user
-w/--write-out [format] 什么输出完成后
-x/--proxy在给定的端口上使用HTTP代理
-#/--progress-bar 进度条显示当前的传送状态`
【网页爬虫|CURL的使用】参考:
https://blog.csdn.net/mouday/article/details/83929376
推荐阅读
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- 使用协程爬取网页,计算网页数据大小
- 爬虫数据处理HTML转义字符
- web网页模板|如此优秀的JS轮播图,写完老师都沉默了
- 2018-12-05爬虫
- Python爬虫技术要学到什么程度才可以找到工作()
- python|python 爬虫抓取图片
- 爬虫|若想拿下爬虫大单,怎能不会逆向爬虫,价值过万的逆向爬虫教程限时分享
- 分布式|《Python3网络爬虫开发实战(第二版)》内容介绍
- 【入门】Python网络爬虫与信息提取1