java抓取数据的代码 java抓取数据的代码有哪些( 三 ) _代码

/tr
tr align="center" bgcolor="#f2f3f4"
td 港币/td
td100/td
td81.54/td
td82.13/td
td81.81/td
td class="no"81.16/td
/tr
tr align="center"
td 美元/td
td100/td
td635.49/td
td639.35/td
td636.8/td
td class="no"631.69/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞士法郎/td
td100/td
td710.89/td
td707.78/td
td702.14/td
td class="no"680.46/td
/tr
tr align="center"
td 新加坡元/td
td100/td
td492.45/td
td490.17/td
【java抓取数据的代码 java抓取数据的代码有哪些】td486.27/td
td class="no"471.25/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 瑞典克朗/td
td100/td
td93.66/td
td93.79/td
td93.04/td
td class="no"90.17/td
/tr
tr align="center"
td 丹麦克朗/td
td100/td
td116.43/td
td115.59/td
td114.67/td
td class="no"111.13/td
/tr
tr align="center" bgcolor="#f2f3f4"
td 挪威克朗/td
td100/td
td110.01/td
td109.6/td
td108.73/td
td class="no"105.37/td
/tr
!--{2011-10-01 23:16:00}--
/tbody
/table
/div
!--中行牌价结束--
大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）
大家想截取这些节点中的数据
以下代码仍需导入htmlparserJava支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
public class Currencyrate {
public static void main(String[] args){
String url="";
ArrayListString rt= getNodeList(url);
for (int i = 0; irt.size(); i++){
System.out.println(rt.get(i));
}
}
public static ArrayListString getNodeList(String url){
final ArrayListString result=new ArrayListString();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i6;i++){
result.add(need.toPlainTextString());need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}
public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}
废话不多说，
public static ArrayListString getNodeList(String url)主要方法
parser.setEncoding("GBK");需要注意，代码编码格式
nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个
accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候parser.visitAllNodesWith(visitor); 就是获取所有节点

java抓取数据的代码 java抓取数据的代码有哪些( 三 )

推荐阅读

节节高升的寓意是什么

鸿蒙系统中文编程教程，华为鸿蒙系统怎么申请

中国财产保险公司排名中国财产保险车险电话

为啥说杭州碎尸案存在两个疑问？

煌精二材料是什么

酒店海尔空调显示f6处理方法与故障原因说明

mongodb导入数据三种方式 mongodb导入备份

弹幕视频软件安卓,快速制作视频软件包括lexiu软件

21天|21天 | 丢21天懒惰组合《目送》

微信站点网站分析

20篇精品文章+视频，手把手带你攻克OOM难题！｜HeapDump性能社区专题精选

辣妈最放心的宝宝面霜有什么？推荐几款安全的宝宝面霜

培训对象分析,GYB的培训对象是

癌肉瘤治疗方法

羊圈毛的衣服怎么清洗羊毛衣服怎样清洗

生活着

现在还有ios培训吗，上海腾科现在有ios培训吗

阳光下的我们歌词分享推荐

箭牌马桶真假鉴别如何分辨真假

马岱为什么杀魏延？关于马岱杀魏延的故事