分词预处理java代码 java分词工具类 _灵思

java如何分词？？如果你的分词规则是在一个字符串的开头和结尾加上"_"，然后两个字符一分的话，代码可以这样写：
import java.util.ArrayList;
import java.util.List;
public class Participle
{
private static final String HEAD_END_STR = "_";
private static final int PARTICIPLE_LENGTH = 2;
public static void main(String[] args)
{
String exampleWord = "计算机";
exampleWord = "_" + exampleWord + "_";
int length = exampleWord.length();
ListString result = new ArrayListString();
for (int i = 0; ilength - 1; i++)
{
String str = exampleWord.substring(i, i + PARTICIPLE_LENGTH);
result.add(str);
}
System.out.println(result);
}
}
输出结果：_计, 计算, 算机, 机_
在线等，比较急?。。∥矣胘ava版的结巴分词写了一段代码，怎样将它输出到指定的txt文件中？String str = segmenter.sentenceProcess(s);
System.out.println(str);
BufferedWriter out = new BufferedWriter(new FileWriter("F:\\out.txt"));
out.append(str);
java编个中文分词的程序import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.*;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.MIK_CAnalyzer;
public class JeAnalyzer {
public static void testStandard(String testString) {
try {
Analyzer analyzer = new StandardAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====standard analyzer====");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static void testCJK(String testString) {
try {
Analyzer analyzer = new CJKAnalyzer();
Reader r = new StringReader(testString);
StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
System.err.println("=====cjk analyzer====");
Token t;
while ((t = sf.next()) != null) {
System.out.println(t.termText());
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static void testChiniese(String testString) {
try {
Analyzer analyzer = new ChineseAnalyzer();
Reader r = new StringReader(testString);
TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
System.err.println("=====chinese analyzer====");
Token t;
while ((t = tf.next()) != null) {
System.out.println(t.termText());
}
} catch (Exception e) {
e.printStackTrace();
}
}
public static String transJe(String testString, String c1, String c2) {
String result = "";
try {
Analyzer analyzer = new MIK_CAnalyzer();
Reader r = new StringReader(testString);
TokenStream ts = (TokenStream) analyzer.tokenStream("", r);
Token t;
while ((t = ts.next()) != null) {
result += t.termText() + ",";
}
} catch (Exception e) {
e.printStackTrace();
}
return result;
}
public static void main(String[] args) {
try {
String testString = "中文分词的方法其实不局限于中文应用，也被应用到英文处理，如手写识别，单词之间的空格就很清楚，中文分词方法可以帮助判别英文单词的边界";
System.out.println("测试的语句"+testString);
String sResult[] = transJe(testString, "gb2312", "utf-8").split(",");
for (int i = 0; isResult.length; i++) {
System.out.println(sResult[i]);
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
jar包

分词预处理java代码 java分词工具类

推荐阅读

苹果手机剪辑视频，苹果手机怎么在视频里剪照片

王者荣耀如果队友出了梦魇,我还要出制裁吗？为什么？

带玉的女孩名字诗意带玉的女孩名字

腾讯管家电脑版怎么杀毒详细介绍

容声冰箱出现内漏怎么办,这与生命财产安全挂钩

云南风车子的功效与作用

所有的痛风患者都是吃出来的？吃出来的病吃回去

自动判决离婚条件是什么？法院自动判离婚条件

三个金人，谁最有价值呢？三个金人的故事

2.财运 1.学业运

ideago语言配置 idea golang

龙眼可以多吃吗

素唯物洗脸巾怎么样？素唯物洗脸巾好不好用

省直是什么意思怎么理解省直的意思

淘宝支付转化率怎么算

涮火锅的牛肉怎么腌，涮火锅的牛肉怎么腌制好吃

金鲳鱼的营养价值金鲳鱼的营养价值简述

宠物医疗器械用品医疗器械用品商店

新手学车怎么样才能把离合控制好

Python代码阅读（第4篇）（过滤掉列表中的唯一值）