本文概述
- Tika TextParser构造函数
- Tika TextParser方法
- Tika文本文件提取示例
此类包含下表中列出的构造函数和方法。
Tika TextParser构造函数
Constructor | Description |
---|---|
public TXTParser() | 它用于创建类的实例。 |
公共TXTParser(EncodingDetector encodingDetector) | 它使用编码检测器创建实例。 |
Method | Description |
---|---|
公共Set < MediaType> getSupportedTypes(ParseContext上下文) | 它返回此解析器支持的媒体类型集。 |
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException | 它将文档流解析为一系列XHTML SAX事件。 |
package tikaexample;
import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.txt.TXTParser;
import org.apache.tika.sax.BodyContentHandler;
public class TextFileExtraction { public static void main(String[] args) {BodyContentHandler handler= new BodyContentHandler();
TXTParser parser= new TXTParser();
Metadata metadata= http://www.srcmini.com/new Metadata();
ParseContext pcontext= new ParseContext();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.txt")) {parser.parse(stream, handler, metadata, pcontext);
System.out.println("Document Content:" + handler.toString());
System.out.println("Document Metadata:");
String[] metadatas = metadata.names();
for(String data : metadatas) {System.out.println(data + ":" + metadata.get(data));
}}catch(Exception e) {System.out.println(e);
} }}
//srcmini.txt
【Tika文本文件提取示例】我们的文本文件内容。
欢迎使用srcmini。
srcmini是一个技术门户网站, 其中包含最新的计算机科学主题。
输出
Document Content:Welcome to the srcmini.srcmini is a Technical portal that contains latest computer science topics.Document Metadata:Content-Encoding:ISO-8859-1Content-Type:text/plain;
charset=ISO-8859-1
推荐阅读
- Tika XML文件提取示例
- Tika将文档解析为XHTML示例
- Tika将文档解析为纯文本示例
- Tika解析器API详细解释和用法
- Android最佳PDF阅读器应用软件下载推荐(让你查看文档更方便)
- 7个最佳创意绘图小工具推荐合集(发挥你的艺术创造能力)
- iPhone最佳音乐制作应用软件下载推荐合集(哪个最好用())
- win10鼠标指针无限转圈的修好办法
- Win10如何清理应用商店程序安装包?