抓取网页的java代码 抓取网页源代码

求用java实现截取整个网页的代码抓取网页的java代码我有的 获得个goole数据的例子 给抓取网页的java代码你
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class GetHtml {
/***********************
* 抓取其抓取网页的java代码他网站数据显示*
***********************/
public static void main(String[] args) {
System.out.println(sendPost(""));
}
public static String sendPost(String url) {
String result = "";
try {
URL httpurl = new URL(url);
HttpURLConnection httpConn = (HttpURLConnection) httpurl
.openConnection();
httpConn.setDoInput(true);
BufferedReader in = new BufferedReader(new InputStreamReader(
httpConn.getInputStream()));
String line;
while ((line = in.readLine()) != null) {
result += line;
}
in.close();
} catch (Exception e) {
e.printStackTrace();
System.out.println("没有结果抓取网页的java代码!" + e);
}
return result;
}
}
有问题QQ 307948631 以前是写抓取网页的java代码了用来抓取天气信息的 呵呵
如何java写/实现网络爬虫抓取网页网络爬虫是一个自动提取网页的程序抓取网页的java代码,它为搜索引擎从万维网上下载网页抓取网页的java代码,是搜索引擎的重要组成 。传统爬虫从一个或若干初始网页的URL开始抓取网页的java代码,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件 。
java实现网页源码获取的步骤:
(1)新建URL对象,表示要访问的网址 。如:url=new URL("");
(2)建立HTTP连接,返回连接对象urlConnection对象 。如:urlConnection = (HttpURLConnection)url.openConnection();
(3)获取相应HTTP 状态码 。如responsecode=urlConnection.getResponseCode();
(4)如果HTTP 状态码为200,表示成功 。从urlConnection对象获取输入流对象来获取请求的网页源代码 。
Java访问指定URL并获取网页源代码1.编写useSourceViewer 类抓取网页的java代码的基本框架抓取网页的java代码,该类仅包括无返回值抓取网页的java代码的main ()方法抓取网页的java代码,该方法从参数中获取URL抓取网页的java代码 , 通过输入缓冲和输出缓冲将该URL 原码输出 。
2.编写useSourceViewer 类,代码如下:
import java.net.*;
import java.io.*;
public class useSourceViewer
{
public static void main (String[] args)
{
if (args.length0)
{
try
{
//读入URL
URL u = new URL(args[0]);
InputStream in = u.openStream( );
// 为增加性能存储输入流
in = new BufferedInputStream(in);
// 将输入流连接到阅读器
Reader r = new InputStreamReader(in);
int c;
while ((c = r.read( )) != -1)
{
System.out.print((char) c);
}
Object o = u.getContent( );
System.out.println("I got a " + o.getClass().getName( ));
}
catch (MalformedURLException e)
{
System.err.println(args[0] + " is not a parseable URL");
}
catch (IOException e)
{
System.err.println(e);
}
} // end if
} // end main
} // end SourceViewer}
如何使用Java抓取网页上指定部分的内容1.你可以选择用Java代码来找到整个网页的html代码,如下
(注意在处理网页方面的内容时,需要导入htmlparser包来支持)
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

推荐阅读