java获取网页源代码 java抓取网页内容( 二 ) 页

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class test1 {
public static void main(String[] a) throws IOException {
String url = "";
System.out.println(getHTML(url, "utf-8"));//使用原网页里声明的gb2312反而会出现乱码
}
public static String getHTML(String pageURL, String encoding) {
StringBuilder pageHTML = new StringBuilder();
try {
URL url = new URL(pageURL);
HttpURLConnection connection = (HttpURLConnection) url
.openConnection();
connection.setRequestProperty("User-Agent", "MSIE 7.0");
BufferedReader br = new BufferedReader(new InputStreamReader(
connection.getInputStream(), encoding));
String line = null;
while ((line = br.readLine()) != null) {
pageHTML.append(line);
pageHTML.append("\r\n");
}
connection.disconnect();
} catch (Exception e) {
e.printStackTrace();
}
return pageHTML.toString();
}
}
java怎样读取html文件java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：
1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API ，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。
jsoup的主要功能如下：
从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；
示例代码：
Document doc = Jsoup.parse(input, "UTF-8", "");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = https://www.04ip.com/post/link.attr("href");
String linkText = link.text();
}
2、htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html 。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0 。据说htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞。
在线文档：；
示例代码：
Parser parser = new Parser ("");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());
java抓取京东商城商品信息，根据网页源文件如何写抓取如下信息：听说过jsoup吗。很简单，两句话搞定。
Documentdocument = Jsoup
.connect("这个页面的url例如：")
.method(Connection.Method.GET)
.followRedirects(false)
.timeout(100000)
.get();
Element el=document.getElementById("zzh_jd")//div 开始的id。
//然后这个element你想怎么用就怎么用了。
//jsoup的使用类似于javascript很方便。
【java获取网页源代码 java抓取网页内容】关于java获取网页源代码和java抓取网页内容的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

java获取网页源代码 java抓取网页内容( 二 )

推荐阅读

解决hp1522开机问题的方法 hp1522开机初始化过不去

退出酷我音乐的登录酷我音乐2013关闭主页面退出酷我音乐的相关使用操作

密室逃脱3攻略第十一关怎么解锁

问道外传

c语言矩阵函数用法 c语言进行矩阵运算

色彩三要素是什么什么是色彩三要素

鬼泣5怎么格挡

小米12|安卓唯一可抗衡iPhone！小米12 Pro自研技术首次实现滑动变速

修炼一颗平静的心平静的心

溃疡性结肠炎|一文了解：儿童溃疡性结肠炎的诊疗要点

如果07年选秀重选,奥登还会是状元么？他当时为何能力压杜兰特？

登录facebook账号如何上facebook

梦见小孩子是什么意思

海底两万里手抄报内容

巴旦木的功效作用

胡鑫宇事件新进展，监控逐步恢复、校内学生被转移，官方回应来了

Django的get_absolute_url方法的使用

辨别云南普洱茶的种类

腾讯出的分析报告,奇虎和腾讯案例分析报告

干菱角怎么吃好吃