Tika文本文件提取示例

本文概述

  • Tika TextParser构造函数
  • Tika TextParser方法
  • Tika文本文件提取示例
为了提取文本文件, Tika提供了TXTParser类。此类用于从文本文件中提取内容和元数据。它位于org.apache.tika.parser.txt软件包中。
此类包含下表中列出的构造函数和方法。
Tika TextParser构造函数
Constructor Description
public TXTParser() 它用于创建类的实例。
公共TXTParser(EncodingDetector encodingDetector) 它使用编码检测器创建实例。
Tika TextParser方法
Method Description
公共Set < MediaType> getSupportedTypes(ParseContext上下文) 它返回此解析器支持的媒体类型集。
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException 它将文档流解析为一系列XHTML SAX事件。
Tika文本文件提取示例在此示例中, 我们从文本文件中提取内容和元数据。请参见以下示例。
package tikaexample; import java.io.InputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.txt.TXTParser; import org.apache.tika.sax.BodyContentHandler; public class TextFileExtraction { public static void main(String[] args) {BodyContentHandler handler= new BodyContentHandler(); TXTParser parser= new TXTParser(); Metadata metadata= http://www.srcmini.com/new Metadata(); ParseContext pcontext= new ParseContext(); try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.txt")) {parser.parse(stream, handler, metadata, pcontext); System.out.println("Document Content:" + handler.toString()); System.out.println("Document Metadata:"); String[] metadatas = metadata.names(); for(String data : metadatas) {System.out.println(data + ":" + metadata.get(data)); }}catch(Exception e) {System.out.println(e); } }}

//srcmini.txt
【Tika文本文件提取示例】我们的文本文件内容。
欢迎使用srcmini。
srcmini是一个技术门户网站, 其中包含最新的计算机科学主题。
输出
Document Content:Welcome to the srcmini.srcmini is a Technical portal that contains latest computer science topics.Document Metadata:Content-Encoding:ISO-8859-1Content-Type:text/plain; charset=ISO-8859-1

    推荐阅读