Tika将文档解析为XHTML示例

本文概述

  • Tika ToXMLContentHandler构造函数
  • Tika ToXMLContentHandler方法
  • Tika将文档解析为XHTML示例
Tika使用ToXMLContentHandler类来获取XHTML格式的输出。它以字符串形式返回整个文档的XHTML内容。
此类包含以下构造函数和方法。
Tika ToXMLContentHandler构造函数以下是ToXMLContentHandler类的构造函数。
Constructor Description
public ToXMLContentHandler() 它用于创建类的实例。
公共ToXMLContentHandler(字符串编码) 它通过获取字符串参数来创建实例。
Tika ToXMLContentHandler方法【Tika将文档解析为XHTML示例】以下是ToXMLContentHandler类的方法。
Methods Description
公共无效字符(char [] ch, int开头, int长度)抛出SAXException 它将给定的字符写入给定的字符流。
受保护的void write(char ch)抛出SAXException 它按原样写入给定字符。
受保护的void write(String string)抛出SAXException 它按原样写入给定的字符串。
公共无效startDocument()引发SAXException 它写入XML前缀。
Tika将文档解析为XHTML示例此示例以XHTML格式生成输出, 而输入为文本格式。
package tikaexample; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.sax.ToXMLContentHandler; import org.xml.sax.ContentHandler; import org.xml.sax.SAXException; public class XhtmlParseExample { public static void main(String[] args) throws IOException, SAXException, TikaException {ContentHandler handler = new ToXMLContentHandler(); AutoDetectParser pa0rser = new AutoDetectParser(); Metadata metadata = http://www.srcmini.com/new Metadata(); try (InputStream stream = XhtmlParseExample.class.getResourceAsStream("Hello.txt")) {parser.parse(stream, handler, metadata); System.out.println(handler.toString()); } }}

输出
以下是hello.txt文件的内容。
Hello Welcome to srcmini

提取后, 它将产生XHTML格式的输出。见下文。
< html xmlns="http://www.w3.org/1999/xhtml"> < head> < meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" /> < meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" /> < meta name="Content-Encoding" content="ISO-8859-1" /> < meta name="Content-Type" content="text/plain; charset=ISO-8859-1" /> < title> < /title> < /head> < body> < p> Hello Welcome to srcmini< /p> < /body> < /html>

    推荐阅读