前置说明 【java|Java使用jsoup爬取网页数据】虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。
1、引入maven包
org.jsoup
jsoup
1.14.3
2、链接网页及抓取代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
public class JsoupTest {public static void main(String[] args) throws IOException {
String url="https://blog.csdn.net/wohaipagui?type=blog";
Document document= Jsoup.parse(new URL(url),30000);
Elements divElements= document.getElementsByClass("mainContent");
Element divElement=divElements.get(0);
Elements articles=divElement.getElementsByTag("article");
for (Element article:articles) {
String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
System.out.println(text);
}
}
}
3、执行的结果
文章图片
推荐阅读
- 面试|SpringBoot中使用WebSocket的方法
- ibatis|ibatis 数据增删改查一日一表的情况
- 面试|前端面试内容1
- Java 初识篇-【笔记一】
- springboot|Springboot+Vue+Element实现的CRM管理系统
- java|多级分类、菜单等的数据库设计(一张表),以及mybatis-plus的多级分类查询(一条SQL语句)
- SpringBoot教学|如何快速使用SpringBoot+Vue前后端分离实现echarts图形可视化(入门详细教程)
- SpringBoot教学|使用SpringBoot一小时快速搭建一个简单后台管理(增删改查)(超详细教程)
- Hadoop|如何在IDEA编译器中连接HDFS,运行MapReduce程序