Apache Tika提供了许多功能, 下面给出其中一些功能。
- 大量的文档类型支持
- 非Java程序可访问性
- 单解析器
- 重量轻
- MIME检测
- 语言检测
Apache Tika可以识别上千种文档类型, 并可以提取文档的内容和元数据。
非Java程序可访问性
【Tika功能简要介绍】在Tika中, 两个主要工具RESTful服务器和CLI工具允许非Java程序访问apache Tika功能。
单解析器
所有第三方库都由Tika封装在单个解析器界面中。用户从解析器库选择中可以轻松使用此功能。
重量轻
Tika重量轻, 因为它使用较少的内存和资源。它很容易嵌入Java程序中, 也可以在移动设备上运行。
MIME和语言检测
Tika可以检测MIME标准中列出的所有媒体类型。它也可以识别语言, 因此可以用于多语言文档。
推荐阅读
- Tika Facade介绍和示例
- Tika组件栈详细解释
- Tika提取PDF文件用法示例
- Tika文件类型检测介绍和示例
- Tika自动检测器解析器示例
- Tika类文件提取示例
- Apache Tika支持的格式详细介绍