本文概述
- 历史
- 人气度
它支持数千种文件类型, 包括.XML, XLS, PDF等。
它是跨平台的, 其存储库可在github上获取以供公众访问。
历史在2007年, Apache启动了一个项目, 以开发一种可以从任何类型的文件中提取内容的工具。其主要目的是使其在CMS(内容管理系统)和Web搜寻器中更加可用。并在2011年发布了第一个正式版本1.0。
Tika的当前稳定版本是2017年12月13日发布的1.17。
人气度Tika(Tika)被全世界使用, 顶级巨头也将其用于信息检索。有最知名的使用Tika的公司。
- FICO(公平伊萨克公司)
- 高盛
- 美国宇航局
- Drupal(软件)
- Alfresco(软件)
推荐阅读
- Apache Tika安装详细步骤详解
- Tika图像提取示例
- Tika HTML文件提取示例
- Tika Flv文件提取示例
- Tika功能简要介绍
- Tika Facade介绍和示例
- Tika组件栈详细解释
- Tika提取PDF文件用法示例
- Tika文件类型检测介绍和示例