引言:jsoup 在 java 基础上实现爬取静态网站信息是非常方便的,只要明白原理就可以为所欲为了,废话不多说,上代码!
1.先在pom.xml 中引入依赖包
org.jsoup
jsoup
1.10.3
2.把你要爬的网址放到这里来,生成一个 document
Document doc = Jsoup.connect(url).get();
3. 现在就可以在生成的 doc 上选择你需要内容所在的节点了,下面简单举几个例子,想了解详细使用方法请到http://www.open-open.com/jsoup/selector-syntax.htm
// 根据 class 查找节点
doc.getElementsByClass("class")// 根据 id 查找节点
doc.getElementById("id")// 根据标签类型,入查找标签
doc.select("a");
// 获取 a 标签中的链接
doc.select("a").attr("href");
懂得这些基本就可以爬取一个简单的网站了 skr!
【java 爬虫插件 jsoup 在springboot 下的使用】
推荐阅读
- 第五节:SpringBoot常用注解介绍
- 第四节:SpringBoot中web模版数据渲染展示
- SpringBoot2022【草稿】
- 聊聊springboot项目全局异常处理那些事儿
- 第一节:创建SpringBoot项目并运行HelloWorld
- springboot管理系统[基于员工角色和文件权限的分级的后台管理系统源码]
- SpringBoot之@ComponentScan和@SpringBootApplication扫描覆盖问题
- mybatis|记mybatis查询null字段导致的NPE
- SpringBoot|SpringBoot 整合 druid数据源
- springboot项目配置application添加图片映射 (windows and linux 都可使用)