Java使用正则表达式爬取网站全部连接初学Java

package Regex; import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.nio.charset.Charset; import java.util.ArrayList; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 网络爬虫取连接然后逐个取出 * @param args */public class WebSpiderTest { /** * 获得urlStr对应的网页的源码内容 * @param urlStr * @return */ public static String getURLContent(String urlStr, String charset) { StringBuilder sb = new StringBuilder(); try { URL url = new URL(urlStr); //url.openStream()打开一个输入流 BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset))); String temp = ""; while((temp = reader.readLine()) != null) { sb.append(temp); //System.out.println(temp); //打印输入网站源码 } } catch (Exception e) { e.printStackTrace(); } return sb.toString(); } public static List getMatherSubstrs(String destStr, String regexStr) { //Pattern p = Pattern.compile(""); //取到所有超链接的a标签里的所有内容 Pattern p = Pattern.compile(regexStr); //取到超链接的地址 Matcher m = p.matcher(destStr); List result = new ArrayList(); while(m.find()) { result.add(m.group(1)); } return result; } public static void main(String[] args) { String destStr = getURLContent("https://www.163.com/", "gbk"); List result = getMatherSubstrs(destStr, "href=https://www.it610.com/"([\\w\\s./:]+？)\""); for(String temp : result) { System.out.println(temp); } }}

【Java使用正则表达式爬取网站全部连接】

Java使用正则表达式爬取网站全部连接

推荐阅读

去年体检说我有点高血脂，没在意，最近老是头晕，高血脂头晕怎么办？

重来——百日行动之一

吃奇异果的最佳时间

3dmax如何给模型贴图 3Dmax给模型贴图的操作步骤

中国哪家古玩鉴定机构具有权威性？鉴定古玩时需要注意哪些问题？

养鱼水泵有什么作用

erp和管理系统的区别，erp和管理信息系统的区别和联系

义忍加蝴蝶忍动漫图片鬼灭之刃蝴蝶忍被草图漫画

刮痧可以治颈椎病吗

包含jquerytd内容换行符的词条

勉励自己的名言警句

黄金车厘子和红车厘子哪个贵

尼尔机械纪元黑之契约怎么获得黑之契约获得方法介绍_网

飞瓜数据是什么

现在苹果se二手多少钱

崭新的崭组词，崭新的崭组词和拼音

立春节气的风俗禁忌 2022年打春是多少号

PS滤镜打造绚丽的色彩

2022年海南养老金上调最新消息海南退休人员2022年养老金调整方案

梦见大风吹进屋是什么意思