Tika允许我们获取各种格式的提取内容, 例如文本, html或xhtml等。ContentHandler类负责返回内容。如果要以纯文本形式获取文档正文的内容, 也可以使用BodyContentHandler。
让我们看一个示例, 其中我们从html文件获取纯文本输出。
Tika解析为纯文本示例
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AutoDetectParseExample { public static void main(String[] args) throws IOException, SAXException, TikaException {BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = http://www.srcmini.com/new Metadata();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {parser.parse(stream, handler, metadata);
System.out.println(handler.toString());
} }}
输出
以下是我们的html文件。
【Tika将文档解析为纯文本示例】//索引。 html
<
html>
<
head>
<
title>
Index Page<
/title>
<
/head>
<
body>
<
h2>
Hello, Welcome to srcmini. <
/h2>
<
/body>
<
/html>
提取后, 它将以纯文本格式输出。
Hello, Welcome to srcmini.
推荐阅读
- Tika将文档解析为XHTML示例
- Tika解析器API详细解释和用法
- Android最佳PDF阅读器应用软件下载推荐(让你查看文档更方便)
- 7个最佳创意绘图小工具推荐合集(发挥你的艺术创造能力)
- iPhone最佳音乐制作应用软件下载推荐合集(哪个最好用())
- win10鼠标指针无限转圈的修好办法
- Win10如何清理应用商店程序安装包?
- Win10任务栏上的小箭头消失了怎样找到?
- 用易升升级win10系统的办法