java获取网页源代码 java抓取网页内容( 二 )


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class test1 {
public static void main(String[] a) throws IOException {
String url = "";
System.out.println(getHTML(url, "utf-8"));//使用原网页里声明的gb2312反而会出现乱码
}
public static String getHTML(String pageURL, String encoding) {
StringBuilder pageHTML = new StringBuilder();
try {
URL url = new URL(pageURL);
HttpURLConnection connection = (HttpURLConnection) url
.openConnection();
connection.setRequestProperty("User-Agent", "MSIE 7.0");
BufferedReader br = new BufferedReader(new InputStreamReader(
connection.getInputStream(), encoding));
String line = null;
while ((line = br.readLine()) != null) {
pageHTML.append(line);
pageHTML.append("\r\n");
}
connection.disconnect();
} catch (Exception e) {
e.printStackTrace();
}
return pageHTML.toString();
}
}
java怎样读取html文件java可以使用jsoup、htmlparser等工具进行html的读取和解析,以下是详细说明:
1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容 。它提供了一套非常省力的API , 可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据 。据说它是基于MIT协议发布的 。
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
示例代码:
Document doc = Jsoup.parse(input, "UTF-8", "");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = https://www.04ip.com/post/link.attr("href");
String linkText = link.text();
}
2、htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html 。它能超高速解析html,而且不会出错 。现在htmlparser最新版本为2.0 。据说htmlparser就是目前最好的html解析和分析的工具 。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞 。
在线文档: ;
示例代码:
Parser parser = new Parser ("");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());
java抓取京东商城商品信息,根据网页源文件如何写抓取如下信息:听说过jsoup吗 。很简单,两句话搞定 。
Documentdocument = Jsoup
.connect("这个页面的url例如:")
.method(Connection.Method.GET)
.followRedirects(false)
.timeout(100000)
.get();
Element el=document.getElementById("zzh_jd")//div 开始的id。
//然后这个element你想怎么用就怎么用了 。
//jsoup的使用类似于javascript很方便 。
【java获取网页源代码 java抓取网页内容】关于java获取网页源代码和java抓取网页内容的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息 , 记得收藏关注本站 。

推荐阅读