java代码爬取网页数据 java实现网页爬取页

如何用java爬虫爬取招聘信息1、思路：
明确需要爬取的信息
分析网页结构
分析爬取流程
优化
2、明确需要爬取的信息
职位名称
工资
职位描述
公司名称
公司主页
详情网页
分析网页结构
3、目标网站-拉勾网
网站使用json作为交互数据，分析json数据，需要的json关键数据
查看需要的信息所在的位置，使用Jsoup来解析网页
4、分析爬取流程
1.获取所有的positionId生成详情页，存放在一个存放网址列表中ListString joburls
2.获取每个详情页并解析为Job类，得到一个存放Job类的列表ListJob jobList
3.把ListJob jobList存进Excel表格中
Java操作Excel需要用到jxl
5、关键代码实现
public ListString getJobUrls(String gj,String city,String kd){
String pre_url="";
String end_url=".html";
String url;
if (gj.equals("")){
url=";city="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;
}else {
url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;
}
String rs=getJson(url);
System.out.println(rs);
int total= JsonPath.read(rs,"$.content.positionResult.totalCount");//获取总数
int pagesize=total/15;
if (pagesize=30){
pagesize=30;
}
System.out.println(total);
// System.out.println(rs);
ListInteger posid=JsonPath.read(rs,"$.content.positionResult.result[*].positionId");//获取网页id
for (int j=1;j=pagesize;j++){//获取所有的网页id
pn++;//更新页数
url=""+gj+"px=defaultcity="+city+"needAddtionalResult=falsefirst=falsepn="+pn+"kd="+kd;
【java代码爬取网页数据 java实现网页爬取】String rs2=getJson(url);
ListInteger posid2=JsonPath.read(rs2,"$.content.positionResult.result[*].positionId");
posid.addAll(posid2); //添加解析的id到第一个list
}
ListString joburls=new ArrayList();
//生成网页列表
for (int id:posid){
String url3=pre_url+id+end_url;
joburls.add(url3);
}
return joburls;
}
public Job getJob(String url){//获取工作信息
Job job=new Job();
Document document= null;
document = Jsoup.parse(getJson(url));
job.setJobname(document.select(".name").text());
job.setSalary(document.select(".salary").text());
String joball=HtmlTool.tag(document.select(".job_bt").select("div").html());//清除html标签
job.setJobdesc(joball);//职位描述包含要求
job.setCompany(document.select(".b2").attr("alt"));
Elements elements=document.select(".c_feature");
//System.out.println(document.select(".name").text());
job.setCompanysite(elements.select("a").attr("href")); //获取公司主页
job.setJobdsite(url);
return job;
}
void insertExcel(ListJob jobList) throws IOException, BiffException, WriteException {
int row=1;
Workbook wb = Workbook.getWorkbook(new File(JobCondition.filename));
WritableWorkbook book = Workbook.createWorkbook(new File(JobCondition.filename), wb);
WritableSheet sheet=book.getSheet(0);
for (int i=0;ijobList.size();i++){//遍历工作列表，一行行插入到表格中
sheet.addCell(new Label(0,row,jobList.get(i).getJobname()));
sheet.addCell(new Label(1,row,jobList.get(i).getSalary()));
sheet.addCell(new Label(2,row,jobList.get(i).getJobdesc()));
sheet.addCell(new Label(3,row,jobList.get(i).getCompany()));
sheet.addCell(new Label(4,row,jobList.get(i).getCompanysite()));
sheet.addCell(new Label(5,row,jobList.get(i).getJobdsite()));
row++;
}
book.write();
book.close();
}
java 网络爬虫怎么实现？1、在打开的ie浏览器窗口右上方点击齿轮图标，选择“Internet选项”，如下图所示：

java代码爬取网页数据 java实现网页爬取

推荐阅读

《家校合作—指导手册》第二章读后感（）

赞美莲花的经典佳句赞美荷花的诗句

尼康d7200app下载尼康d7200图片编辑软件

mysql数据库 mysql中往插入记录

砂糖橘皮可以做陈皮吗

赢了游戏，输了人生

?中秋节快乐手抄报 ?中秋节快乐手抄报怎么画

安卓影视vip,比较了十几个型号发现千寻影视最好

红豆薏米茶直接开水泡可以吗

rediscli登录 redisclid

莲藕的做法

为什么有些人选择将CAD图纸保存为dxf格式？

电压过低空调不制冷什么原因,答案在这里

夏姓女孩取名100分夏楠取名评分118分

迅捷思维导图软件下载分享

小孩冒冷汗是什么原因引起的小孩冒冷汗是什么原因

阿根廷球员号码一览表阿根廷球员身价排名

尼康d7000菜单设置参考尼康d7000菜单设置

华为nova青春版耳机怎么用

2021肇庆中考时间 2023年肇庆初中学考