java|Java使用jsoup爬取网页数据 java|jsoup

前置说明 【java|Java使用jsoup爬取网页数据】虽然可以爬取数据，但是不能获取网页的视频（tika包可以）、音乐、Ajax数据，只能获取页面渲染出的元素和数据。必须联网。
1、引入maven包

org.jsoup jsoup 1.14.3

2、链接网页及抓取代码

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; public class JsoupTest {public static void main(String[] args) throws IOException { String url="https://blog.csdn.net/wohaipagui?type=blog"; Document document= Jsoup.parse(new URL(url),30000); Elements divElements= document.getElementsByClass("mainContent"); Element divElement=divElements.get(0); Elements articles=divElement.getElementsByTag("article"); for (Element article:articles) { String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text(); System.out.println(text); } } }

3、执行的结果