Tika HTML文件提取示例

本文概述

正确的HtmlParser构造函数
Tika HtmlParser方法
Tika HTML文件提取示例

为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。
正确的HtmlParser构造函数

Constructor	Description
公共HtmlParser()	它用于创建类的实例。
公共HtmlParser(EncodingDetector encodingDetector)	它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。

Tika HtmlParser方法

Method	Description
公共Set < MediaType> getSupportedTypes(ParseContext上下文)	当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException	它将文档流解析为一系列XHTML SAX事件。
受保护的字符串mapSafeElement(字符串名称)	它用于将安全HTML元素名称映射到语义XHTML等效项。
受保护的布尔值isDiscardElement(String name)	它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。
公共String mapSafeAttribute(String elementName, String attributeName)	它使用HtmlMapper机制来自定义HTML映射。
@Field public void setExtractScripts(boolean extractScripts)	它确定是否提取脚本实体中的内容。
公共布尔getExtractScripts()	它用于获取提取的脚本。

Tika HTML文件提取示例在此示例中, 我们正在提取HTML文件的内容和元数据。参见示例。

package tikaexample; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.html.HtmlParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.SAXException; public class HtmlParse {public static void main(final String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler = new BodyContentHandler(); HtmlParser parser= new HtmlParser(); Metadata metadata= http://www.srcmini.com/new Metadata(); ParseContext pcontext= new ParseContext(); try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {parser.parse(stream, handler, metadata, pcontext); }System.out.println("Document Content:" + handler.toString()); System.out.println("Document Metadata:"); String[] metadatas = metadata.names(); for(String meta : metadatas) {System.out.println(meta + ":" + metadata.get(meta)); }}}

【Tika HTML文件提取示例】输出

Document Content:Hello, Welcome to srcmini. Document Metadata:dc:title:Index PageContent-Encoding:ISO-8859-1title:Index PageContent-Type:text/html; charset=ISO-8859-1