phpstudy怎么抓取网页数据什么网页数据php网页抓取数据?
是打开 本地网页还是打开网上网页
如果是本地网页的话在浏览器上输入127.0.0.1或者localhost进行访问
如果是外网php网页抓取数据我理解的是php网页抓取数据你要获取外网的一个网页,可以用代码或者程序来实现
(一般称为采集程序,或者小偷程序)
//个人认为curl好一点,因为curl可以模拟浏览器,有的网站会过滤机器人
//1.php代码
//把网页读入一个字符串
$contone = file_get_contents('url');
print_r($contone);
//curl采集
#初始化curl(true/false)
$ch=curl_init();
#请求url地址
$params[CURLOPT_URL]='网址';
#是否返回响应头信息
$params[CURLOPT_HEADER] = true;
#是否将结果返回
$params[CURLOPT_RETURNTRANSFER] = true;
#是否重定向
$params[CURLOPT_FOLLOWLOCATION] = true;
#伪造浏览器
$params[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 5.1; rv:9.0.1) Gecko/20100101 Firefox/9.0.1';
curl_setopt_array($ch, $params);
$content=curl_exec($ch);
//输出网页内容
print_r($content);
//下面是整个curl采集类
class Curl{
#采集的地址
public $url;
#匹配的正则
public $preg;
#模拟登录需要的用户名
public $username;
#模拟登录需要的密码;
public $pwd;
#cookie存储的路径
private $cookie_path;
#采集数据的字符集
public $charset;
/**
* 构造方法,初始化采集基本信息
* @param $url采集的url
* @param $preg 匹配的正则
* @param string $username用户名
* @param string $pwd密码
* @param string $charset 字符集
*/
public function __construct($info){
extract($info);
$this-url=$url;
$this-preg=$preg;
if(isset($charset)){
header("content-type:text/html;charset=".$this-charset);
}else{
header("content-type:text/html;charset=utf-8");
}
if(isset($username)){
$this-username=$username;
}
if(isset($pwd)){
$this-pwd=$pwd;
}
}
/*
* 采集数据,非表单提交方式 , 直接采集的
*/
public function get_info(){
#初始化curl
$ch=curl_init();
#请求url地址
$params[CURLOPT_URL]=$this-url;
#是否返回响应头信息
$params[CURLOPT_HEADER] = true;
#是否将结果返回
$params[CURLOPT_RETURNTRANSFER] = true;
#是否重定向
$params[CURLOPT_FOLLOWLOCATION] = true;
#伪造浏览器
$params[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 5.1; rv:9.0.1) Gecko/20100101 Firefox/9.0.1';
//判断是否有cookie,有的话直接使用
//if (isset($_COOKIE['cookie_jar']) ($_COOKIE['cookie_jar'] || is_file($_COOKIE['cookie_jar']))){
//$params[CURLOPT_COOKIEFILE] = $_COOKIE['cookie_jar']; //这里判断cookie
//} else {
//$cookie_jar = tempnam($this-cookie_path, 'cookie');//产生一个cookie文件
//$params[CURLOPT_COOKIEJAR] = $cookie_jar;//写入cookie信息
//setcookie('cookie_jar', $cookie_jar); //保存cookie路径
//}
#开始发送请求,传入curl参数
curl_setopt_array($ch, $params);
$content=curl_exec($ch);
preg_match_all($this-preg,$content,$arr);
return $arr;
}
/**
* 采集远程图片
* @param $img图片路径是一个数组
* @param $save_path图片保存在你本地的路径
* @return bool
*/
public function get_img($img,$save_path){
for($i=0;$icount($img);$i++) {
$res=@file_get_contents($img[$i]);
$img_type=substr($img[$i], strrpos($img[$i], "."));
$path=$save_path.time().rand(1,9999999).mt_rand() .$img_type;
$img[$i] = $path;
推荐阅读
- 关闭电视是什么鱼,关闭电视的词有哪些
- 包含广电宽带怎么同时连接电视的词条
- 包含怎么让人一起玩棋牌游戏的词条
- 视频号直播手机拉腿,微信视频号直播拉流
- python继承函数 python继承类
- 新建flutter项目报错,创建flutter项目
- 怎么获取苹果手机的ip,怎么获取苹果手机的数据
- 小明玩射击游戏的视频,小明开枪游戏规则
- linux命令call linux命令行快捷键