Tika将文档解析为纯文本示例

Tika允许我们获取各种格式的提取内容, 例如文本, html或xhtml等。ContentHandler类负责返回内容。如果要以纯文本形式获取文档正文的内容, 也可以使用BodyContentHandler。
让我们看一个示例, 其中我们从html文件获取纯文本输出。
Tika解析为纯文本示例

package tikaexample; import java.io.IOException; import java.io.InputStream; import org.apache.tika.exception.TikaException; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser; import org.apache.tika.sax.BodyContentHandler; import org.xml.sax.SAXException; public class AutoDetectParseExample { public static void main(String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler = new BodyContentHandler(); AutoDetectParser parser = new AutoDetectParser(); Metadata metadata = http://www.srcmini.com/new Metadata(); try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {parser.parse(stream, handler, metadata); System.out.println(handler.toString()); } }}

输出
以下是我们的html文件。
【Tika将文档解析为纯文本示例】//索引。 html
< html> < head> < title> Index Page< /title> < /head> < body> < h2> Hello, Welcome to srcmini. < /h2> < /body> < /html>

提取后, 它将以纯文本格式输出。
Hello, Welcome to srcmini.

    推荐阅读