本文概述
- Tika语言检测
- Tika语言检测示例
Tika使用LanguageProfile和Language-Identifier类来匹配ISO 639语言代码。
Tika可以检测184种当前注册的ISO 639-1语言中的18种。
ISO 639是由国际标准化组织(ISO)定义的一组标准。
Tika能够检测多种语言, 包括英语, 德语, 意大利语等。请参见下表。
Code name | Language |
---|---|
da | Danish |
de | German |
et | Estonian |
el | Greek |
en | English |
es | Spanish |
fi | Finnish |
fr | French |
hu | Hungarian |
is | Icelandic |
it | Italian |
nl | Dutch |
no | Norwegian |
pl | Polish |
pt | Portuguese |
ru | Russian |
sv | Swedish |
th | Thai |
文章图片
org.apache.tika.language软件包包含检测文档或文本语言所需的所有必需类。让我们来看一个例子。
Tika语言检测示例
package tikaexample;
import org.apache.tika.language.LanguageIdentifier;
public class LanguageDetectionExample { public static void main(String[] args) {LanguageIdentifier identifier = new LanguageIdentifier("Hello, this is srcmini.");
String language = identifier.getLanguage();
System.out.println("Language code is : " + language);
}}
【Tika语言检测解释和示例】输出
Language code is : en
推荐阅读
- Tika MP4文件提取示例
- Tika Mp3文件提取示例
- Tika Jar文件提取示例
- Apache Tika安装详细步骤详解
- Tika简要简介
- Tika图像提取示例
- Tika HTML文件提取示例
- Tika Flv文件提取示例
- 8款Android的最佳免费指纹锁应用软件下载推荐合集