Tika简要简介

本文概述

  • 历史
  • 人气度
Tika是一种内容分析工具, 由Apache Software Foundation设计和开发。它是用Java编写的, 用于检测和提取文件中的内容和元数据。
它支持数千种文件类型, 包括.XML, XLS, PDF等。
它是跨平台的, 其存储库可在github上获取以供公众访问。
历史在2007年, Apache启动了一个项目, 以开发一种可以从任何类型的文件中提取内容的工具。其主要目的是使其在CMS(内容管理系统)和Web搜寻器中更加可用。并在2011年发布了第一个正式版本1.0。
Tika的当前稳定版本是2017年12月13日发布的1.17。
人气度Tika(Tika)被全世界使用, 顶级巨头也将其用于信息检索。有最知名的使用Tika的公司。
  • FICO(公平伊萨克公司)
  • 高盛
  • 美国宇航局
  • Drupal(软件)
  • Alfresco(软件)
【Tika简要简介】《福布斯》杂志发表了一份有关Tika的关键作用的报告, 该报告被400名采访人员用来提取1150万份文档以获取信息。

    推荐阅读