本文概述
- 正确的HtmlParser构造函数
- Tika HtmlParser方法
- Tika HTML文件提取示例
正确的HtmlParser构造函数
Constructor | Description |
---|---|
公共HtmlParser() | 它用于创建类的实例。 |
公共HtmlParser(EncodingDetector encodingDetector) | 它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。 |
Method | Description |
---|---|
公共Set < MediaType> getSupportedTypes(ParseContext上下文) | 当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。 |
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException | 它将文档流解析为一系列XHTML SAX事件。 |
受保护的字符串mapSafeElement(字符串名称) | 它用于将安全HTML元素名称映射到语义XHTML等效项。 |
受保护的布尔值isDiscardElement(String name) | 它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。 |
公共String mapSafeAttribute(String elementName, String attributeName) | 它使用HtmlMapper机制来自定义HTML映射。 |
@Field public void setExtractScripts(boolean extractScripts) | 它确定是否提取脚本实体中的内容。 |
公共布尔getExtractScripts() | 它用于获取提取的脚本。 |
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {public static void main(final String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler = new BodyContentHandler();
HtmlParser parser= new HtmlParser();
Metadata metadata= http://www.srcmini.com/new Metadata();
ParseContext pcontext= new ParseContext();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {parser.parse(stream, handler, metadata, pcontext);
}System.out.println("Document Content:" + handler.toString());
System.out.println("Document Metadata:");
String[] metadatas = metadata.names();
for(String meta : metadatas) {System.out.println(meta + ":" + metadata.get(meta));
}}}
【Tika HTML文件提取示例】输出
Document Content:Hello, Welcome to srcmini. Document Metadata:dc:title:Index PageContent-Encoding:ISO-8859-1title:Index PageContent-Type:text/html;
charset=ISO-8859-1
推荐阅读
- Tika图像提取示例
- Tika Flv文件提取示例
- 8款Android的最佳免费指纹锁应用软件下载推荐合集
- 支付宝支付扫码付和app支付,回调验证签名失败问题
- call和apply方法的异同
- 第35篇进程之间的通信 Queue Pipe 进程池Pool,p.apply()方法,p.apply_async()方法
- Django中的app及mysql数据库篇(ORM操作)
- our happy ending(状压dp)
- Android 5.0+ 屏幕录制实现