Tika组件栈详细解释

本文概述

  • Tika-Core
  • Tika-Parsers
  • Tika-App
  • Tika-Bundle
Tika由四个组成组件栈的组件组成。下图显示了组件的位置以及彼此之间的相互作用。
Tika组件栈详细解释

文章图片
Tika-Core 它是基础组件, 在此基础上构建了其他三个软件包组件。它提供以下内容。
  1. Tika门面和可检测MIME类型的类。所有MIME类都组织在org.apache.tika.mime包中。
  2. 核心解析器接口。
  3. 语言标识符接口, 位于org.apache.tika.language包中。
  4. 核心元数据结构组织到org.apache.tika.metadata包中。
  5. 用于输出存储在org.apache.tika.sax包中的结构化文本的方法。
Tika-Parsers 【Tika组件栈详细解释】它代表用于不同解析库的Tika包装器。它还提供了通用解析器接口的实现。 Tika-parser提供了所有必需的类和方法来解析文本和元数据。
Tika-App 它是一个提供Tika命令行和图形用户界面方面的应用程序。它是tika分析器的顶部。我们可以从命令行运行它, 它显示了一个可以拖动文件的窗口。它产生提取的内容和拖动文件的元数据。要使用它, 我们可以从tika的官方网站上安装它。这是一个jar文件, 因此我们可以使用java命令执行它。
Tika-Bundle 它是Tiks的四个组件之一, 用于提供开放服务网关倡议(OGSI)捆绑包。它有助于Tika包含在OGSI环境中。
OGSI是一种软件组件模型, 可帮助开发Java中基于组件的应用程序。它类似于Java Bean, 并支持模块化软件开发方法。
之所以创建tika-bundle软件包, 是因为最近的Tika部署需要包含完整的Tika栈(理想情况下为tika-app)。

    推荐阅读