java解析html代码 java htmlencode

java中解析html代码提取字符串package test;
public class JButtonTest
{
public static void main ( String[] args )
{
【java解析html代码 java htmlencode】String regex = "[\\s\\S] \\property\\s name[\\=\'\"] label[^\\] \\([^\\] )\\\\/property\\[\\s\\S]*";
String input = "property name=\"name\"\r\nprojectNo\r\n/property\r\nproperty name=\"property\"\r\n projectNo\r\n/property\r\nproperty name=\"label\"\r\n 项目编号\r\n/property\r\neditor /";
System.out.println (input.replaceAll (regex, "$1"));
}
}
Java解析html问题感觉上你这里应该是有点问题的:
一、你在while判断的时候会让reader往后读一行的数据java解析html代码;然后在里面执行的时候又走一行java解析html代码;这就可能出现原本你的while里面判断的时候有值java解析html代码,但是在里面执行的时候已经没有值java解析html代码了 。
二、如果你的文件里面有一行是空的java解析html代码,不满足while的条件 , 是不是程序到这里就被中断了呢?
其他的问题也没有发现什么 。你看一下吧 。
java怎样读取html文件java可以使用jsoup、htmlparser等工具进行html的读取和解析 , 以下是详细说明:
1、jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容 。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据 。据说它是基于MIT协议发布的 。
jsoup的主要功能如下:
从一个URL,文件或字符串中解析HTML;
使用DOM或CSS选择器来查找、取出数据;
可操作HTML元素、属性、文本;
示例代码:
Document doc = Jsoup.parse(input, "UTF-8", "");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = https://www.04ip.com/post/link.attr("href");
String linkText = link.text();
}
2、htmlparser是一个纯的java写的html解析的库 , 它不依赖于其它的java库文件,主要用于改造或提取html 。它能超高速解析html,而且不会出错 。现在htmlparser最新版本为2.0 。据说htmlparser就是目前最好的html解析和分析的工具 。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞 。
在线文档: ;
示例代码:
Parser parser = new Parser ("");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());
java程序怎么读取html网页?步骤:
一、使用java.net包下的URL类 , 可以将一个网页(链接)封装成一个URL对象 。
二、URL对象有一个openStream()方法,使用该方法可以获取该网页的输入流,我们可以通过读取输入流的方式获得网页的内容,并通过输出流写入HTML文件中 。
补充:
步骤:
1.通过URL对象的openStream()方法获得网页的字节输入流。
2.为字节输入流加缓冲。
3. 创建字节输出流对象。
4. 为字节输出流加缓冲。
5. 读取数据,并写入HTML文件。
JAVA解析html吧源文件找到,去掉html的符号就可以啦 。给你看一段我写的 , 写的不好,还得改呢(*^__^*) 嘻嘻……:
public String HtmlToTextGb2312(String inputString)
{
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
Pattern p_script;
Matcher m_script;
Pattern p_style;
Matcher m_style;
Pattern p_html;
Matcher m_html;
Pattern p_houhtml;
Matcher m_houhtml;
Pattern p_spe;
Matcher m_spe;
Pattern p_blank;
Matcher m_blank;
Pattern p_table;
Matcher m_table;
Pattern p_enter;
Matcher m_enter;
try {
String regEx_script = "[\\s]*?script[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?script[\\s]*?";
//定义script的正则表达式.
String regEx_style = "[\\s]*?style[^]*?[\\s\\S]*?[\\s]*?\\/[\\s]*?style[\\s]*?";
//定义style的正则表达式.
String regEx_html = "[^] ";
//定义HTML标签的正则表达式
String regEx_houhtml = "/[^] ";
//定义HTML标签的正则表达式
String regEx_spe="\\[^;] ;";
//定义特殊符号的正则表达式
String regEx_blank="";
//定义多个空格的正则表达式
String regEx_table="\t ";
//定义多个制表符的正则表达式
String regEx_enter="\n ";
//定义多个回车的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
p_houhtml = Pattern.compile(regEx_houhtml,Pattern.CASE_INSENSITIVE);
m_houhtml = p_houhtml.matcher(htmlStr);
htmlStr = m_houhtml.replaceAll(""); //过滤html标签
p_spe = Pattern.compile(regEx_spe,Pattern.CASE_INSENSITIVE);
m_spe = p_spe.matcher(htmlStr);
htmlStr = m_spe.replaceAll(""); //过滤特殊符号
p_blank = Pattern.compile(regEx_blank,Pattern.CASE_INSENSITIVE);
m_blank = p_blank.matcher(htmlStr);
htmlStr = m_blank.replaceAll(" "); //过滤过多的空格
p_table = Pattern.compile(regEx_table,Pattern.CASE_INSENSITIVE);
m_table = p_table.matcher(htmlStr);
htmlStr = m_table.replaceAll(" "); //过滤过多的制表符
p_enter = Pattern.compile(regEx_enter,Pattern.CASE_INSENSITIVE);
m_enter = p_enter.matcher(htmlStr);
htmlStr = m_enter.replaceAll(" "); //过滤过多的制表符
textStr = htmlStr;
}catch(Exception e)
{
System.err.println("Html2Text: "e.getMessage());
}
return textStr;//返回文本字符串
}
java如何解析html文档import java.io.*;
import java.util.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
public class Parser extends ParserCallback {//继承ParserCallback,解析结果驱动这些回调方法
protected String base;
protected boolean isImg = false;
protected boolean isParagraph = false;
protected static VectorString element = new VectorString();
protected static String paragraphText = new String();
public Parser() {
}
public static String getParagraphText() {
return paragraphText;
}
public void handleComment(char[] data, int pos) {
}
public void handleEndTag(HTML.Tag t, int pos) {
if (t == HTML.Tag.P) {
if (isParagraph) {
isParagraph = false;
}
} else if (t == HTML.Tag.IMG) {
if (isImg) {
isImg = false;
}
}
}
public void handleError(String errorMsg, int pos) {
}
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
handleStartTag(t, a, pos);
}
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
if (t == HTML.Tag.P) {
isParagraph = true;
} else if ((t == HTML.Tag.IMG)) {
String src = https://www.04ip.com/post/(String) a.getAttribute(HTML.Attribute.SRC);
if (src != null) {
element.addElement(src);
isImg = true;
}
}
}
public void handleText(char[] data, int pos) {
if (isParagraph) {
String tempParagraphText = new String(data);
if (paragraphText != null) {
element.addElement(tempParagraphText);
;
}
}
}
private static void startParse(String sHtml) {
try {
ParserDelegator ps = new ParserDelegator();//负责每次在调用其 parse 方法时启动一个新的 DocumentParser
HTMLEditorKit.ParserCallback parser = new Parser();//解析结果驱动这些回调方法 。
ps.parse(new StringReader(sHtml), parser, true);//解析给定的流并通过解析的结果驱动给定的回调 。
//System.out.println(getParagraphText());
Vector link = element;
for (int i = 0; ilink.size(); i) {
System.out.println("----haha-----");
System.out.println(link.get(i));
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static void main(String args[]) {
try {
String filename = "D://blogbaby.htm";
BufferedReader brd = new BufferedReader(new FileReader(filename));
char[] str = new char[50000];
brd.read(str);
String sHtml = new String(str);
startParse(sHtml);
} catch (Exception e) {
e.printStackTrace();
}
}
}
关于java解析html代码和java htmlencode的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站 。

    推荐阅读