网页爬虫|CURL的使用网页爬虫|curl

* 安装

Windows环境安装

首先下载curl的安装包官网：https://curl.haxx.se/download... 然后找到对应的系统版本

文章图片

配置环境变量
新建系统变量：
CURL_HOMED:curlcurl-7.71.1-win64-mingw （解压路径）
然后在PATH变量后面追加; %CURL_HOME%bin

文章图片

3.检测是否安装成功

CMD(Windows+R打开cmd命令行)输入指令:curl --help ![image](/img/bVbKZsE)

4.检测是否乱码
CMD(Windows+R打开cmd命令行)输入指令:
curl www.baidu.com

文章图片

常用命令

下载单个文件（基本用法）

curl http://www.centos.org

通过-o/-O选项保存下载的文件到指定的文件中：

-o：将文件保存为命令行中指定的文件名的文件中
-O：使用URL中默认的文件名保存文件到本地

文章图片

3.同时获取多个文件

文章图片

4.对CURL使用网络限速

通过--limit-rate选项对CURL的最大网络使用进行限制 ![image](/img/bVbKZtd) 下载指定时间内修改过的文件当下载一个文件时，可对该文件的最后修改日期进行判断，如果该文件在指定日期内修改过，就进行下载，否则不下载。该功能可通过使用-z选项来实现：

文章图片

5.CURL授权

在访问需要授权的页面时，可通过-u选项提供用户名和密码进行授权 ![image](/img/bVbKZtz)

6.从FTP服务器下载文件

![image](/img/bVbKZtC)

7.从FTP服务器上传文件

![image](/img/bVbKZtD)

8.使用代理

curl -x 192.168.100.100:1080 http://www.baidu.com

9.只显示 HTTP 头

`curl -I http://www.codebelief.com `

10.自定义User-Agent

`curl -A “Mozilla/5.0 (Android; Mobile; rv:35.0) Gecko/35.0 Firefox/35.0” http://www.baidu.com `

11.自定义 header

`curl -H “Referer: www.example.com” -H “User-Agent: Custom-User-Agent” http://www.baidu.com `

12.POST 请求

POST 请求，-d 用于指定发送的数据，-X 用于指定发送数据的方式：

curl -d “userName=tom&passwd=123456” -X POST http://www.example.com/login
在使用 -d 的情况下，如果省略 -X，则默认为 POST 方式：
curl -d “userName=tom&passwd=123456” http://www.example.com/login
13.一些其他的参数

`-A/--user-agent设置用户代理发送给服务器

-b/--cookie cookie字符串或文件读取位置
-c/--cookie-jar 操作结束后把cookie写入到这个文件中
-C/--continue-at 断点续转
-D/--dump-header 把header信息写入到该文件中
-e/--referer 来源网址
-f/--fail 连接失败时不显示http错误
-o/--output 把输出写到该文件中
-O/--remote-name 把输出写到该文件中，保留远程文件的文件名
-r/--range 检索来自HTTP/1.1或FTP服务器字节范围
-s/--silent 静音模式。不输出任何东西
-T/--upload-file 上传文件
-u/--user 设置服务器的用户和密码
-w/--write-out [format] 什么输出完成后
-x/--proxy在给定的端口上使用HTTP代理
-#/--progress-bar 进度条显示当前的传送状态`
【网页爬虫|CURL的使用】参考：
https://blog.csdn.net/mouday/article/details/83929376