WordConfTools.set("dic.path", "classpath:dic.txt,d:/custom_dic");
DictionaryFactory.reload();//更改词典路径之后,重新加载词典
指定方式二 , Java虚拟机启动参数(中优先级):
java -Ddic.path=classpath:dic.txt , d:/custom_dic
指定方式三 , 配置文件指定(低优先级):
使用类路径下的文件word.local.conf来指定配置信息
dic.path=classpath:dic.txt,d:/custom_dic
如未指定 , 则默认使用类路径下的dic.txt词典文件
6、自定义停用词词库
使用方式和自定义用户词库类似,配置项为:
stopwords.path=classpath:stopwords.txt,d:/custom_stopwords_dic
7、自动检测词库变化
可以自动检测自定义用户词库和自定义停用词词库的变化
包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径
如:
classpath:dic.txt,classpath:custom_dic_dir,
d:/dic_more.txt,d:/DIC_DIR , D:/DIC2_DIR,my_dic_dir,my_dic_file.txt
classpath:stopwords.txt , classpath:custom_stopwords_dic_dir,
d:/stopwords_more.txt,d:/STOPWORDS_DIR,d:/STOPWORDS2_DIR,stopwords_dir,remove.txt
8、显式指定分词算法
对文本进行分词时,可显式指定特定的分词算法,如:
WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationAlgorithm.BidirectionalMaximumMatching);
SegmentationAlgorithm的可选类型为:
正向最大匹配算法:MaximumMatching
逆向最大匹配算法:ReverseMaximumMatching
正向最小匹配算法:MinimumMatching
逆向最小匹配算法:ReverseMinimumMatching
双向最大匹配算法:BidirectionalMaximumMatching
双向最小匹配算法:BidirectionalMinimumMatching
双向最大最小匹配算法:BidirectionalMaximumMinimumMatching
全切分算法:FullSegmentation
最少分词算法:MinimalWordCount
最大Ngram分值算法:MaxNgramScore
9、分词效果评估
运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估
评估采用的测试文本有253 3709行,共2837 4490个字符
评估结果位于target/evaluation目录下:
corpus-text.txt为分好词的人工标注文本,词之间以空格分隔
test-text.txt为测试文本,是把corpus-text.txt以标点符号分隔为多行的结果
standard-text.txt为测试文本对应的人工标注文本,作为分词是否正确的标准
result-text-***.txt,***为各种分词算法名称,这是word分词结果
perfect-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准完全一致的文本
wrong-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准不一致的文本
【去停用词java代码 java中暂停或者停止一个执行中的线程】去停用词java代码的介绍就聊到这里吧,感谢你花时间阅读本站内容 , 更多关于java中暂停或者停止一个执行中的线程、去停用词java代码的信息别忘了在本站进行查找喔 。
推荐阅读
- 经营休闲好玩的游戏平台,经营休闲好玩的游戏平台有哪些
- cpu上的硅胶有什么用,cpu硅胶干嘛用的
- phpcms上传虚拟主机,phpcms h5上传
- python变量下划线,python变量加下划线
- 100的阶乘c语言函数 c++求100的阶乘
- Go语言有队列和栈结构吗,go语言实现栈
- datax访问redis的简单介绍
- 微信直播扶贫,微信直播扶贫是真的吗
- go语言爬虫程序 golang爬虫和 python爬虫