什么是分词 所谓分词,就是把一段语句,分割成一个个单词的过程。比如"717 Hendrickson Place"短语,分词后就是三个单词,即717、hendrickson、place。注意,分词后的单词默认都是小写。
分词查询,指的就是查询时,把要查询的语句(字符串)先进行分词,然后拿分词后的单词去文档集合中比对。只要包含分词后的任意一个单词,就算命中结果。
如何查看分词结果 1.查看指定短语分词结果
GET _analyze
{
"analyzer":"standard",
"text":"717 Hendrickson Place"
}
文章图片
分词结果中,有几个关键字:token、start_offset、end_offset、position。它们的含义说明如下:
关键字 | 含义 |
---|---|
token | 分词后的单词,小写 |
start_offset | 在整个短语字符串中的开始位置,相当于数组下标 |
end_offset | 在整个短语字符串中的结束位置,相当于数组下标 |
position | 单词在整个短语的位置,即第几个单词 |
GET /bank/_analyze
{
"field":"address",
"text":"717 Hendrickson Place"
}
文章图片
3.查看单个文档某个字段分词结果
原始文档数据
GET /bank/_doc/1
文章图片
分词后数据
GET /bank/_doc/1/_termvectors?fields=address
文章图片
分词涉及关键字说明 分词查询中,经常涉及几个关键字,如text、keyword、match、term。很多人都会混淆,不明白彼此间有何区别。下面就重点解释下。
text和keyword
- text和keyword是数据类型,针对的是数据写入,写入到磁盘上是否进行分词。
- text会分词,也就是说,在数据落盘时,会被分割成多个独立的单词,然后存入倒排索引中。分词查询时候,也是以单词维度进行匹配。
- keyword不会分词,存的的是整个短语。
- match和term,是两种搜索方式,针对的是数据查询,要查询的短语是否进行分词。
- match搜索时候,会对被搜索的内容进行分词,然后拿分词后的内容,去倒排索引中查询。
- term是不对被搜索内容进行分词,就是完全匹配。
term+keyword:有结果
POST /bank/_search
{
"query": {
"term": {
"address.keyword": "717 Hendrickson Place"
}
}
}
文章图片
term+keyword:没有结果(这里改动了place)
POST /bank/_search
{
"query": {
"term": {
"address.keyword": "717 Hendrickson Place01"
}
}
}
文章图片
match+keyword:有结果
POST /bank/_search
{
"query": {
"match": {
"address.keyword": "717 Hendrickson Place"
}
}
}
文章图片
match+keyword:没有结果(这里改动了place)
POST /bank/_search
{
"query": {
"match": {
"address.keyword": "717 Hendrickson Place01"
}
}
}
文章图片
term+text:没有结果
POST /bank/_search
{
"query": {
"term": {
"address": "717 Hendrickson Place"
}
}
}
文章图片
match+text:有结果
POST /bank/_search
{
"query": {
"match": {
"address": "717 Hendrickson Place"
}
}
}
文章图片
match+text:有结果(这里改动了place)
POST /bank/_search
{
"query": {
"match": {
"address": "717 Hendrickson Place01"
}
}
}
文章图片
term+text:没有结果
POST /bank/_search
{
"query": {
"term": {
"address": "Hendrickson"
}
}
}
文章图片
term+text:有结果(Hendrickson改成小写hendrickson)
POST /bank/_search
{
"query": {
"term": {
"address": "hendrickson"
}
}
}
文章图片
分词查询:match_phrase 先看下例子,此时能查到结果
POST /bank/_search
{
"query":{
"match_phrase":{
"address": "467 Hutchinson"
}
}
}
文章图片
下面这种查不到结果(Hutchinson改为了Hutchinson01)
POST /bank/_search
{
"query":{
"match_phrase":{
"address": "467 Hutchinson01"
}
}
}
文章图片
同样的查询语句,此时改为match,能查到结果
POST /bank/_search
{
"query":{
"match":{
"address": "467 Hutchinson01"
}
}
}
文章图片
很多文章把match_phrase查询称为短语查询,只要结果中全部包含待查询语句即可。从现象来看,这种解释也没错,但很容易让人误以为match_phrase查询时,不对待查询语句进行分词,就是SQL中like的功能。这种是不对的。
从上面对比中可以看出来,match_phrase和match是不一样的。match是对待查询语句先分词,然后再去文档集合中查询。只要包含分词后的任意一个单词,就算是命中。但match_phrase不是这样,它也会先分词,不过查询时候必须全部包含分词后的所有单词,其单词前后顺序也要一样。
下面把上述短语中单词顺序调换下,在测试看
POST /bank/_search
{
"query":{
"match_phrase":{
"address": "Hutchinson 467"
}
}
}
【中间件|Elasticsearch专栏-5.es基本用法-分词查询】
文章图片
此时可以看到,单词顺序颠倒后,match_phrase是查不到结果的。match仍然可以。
总结:match_phrase和match查询时候,都会先分词再查询。match要求不高,只要匹配到分词后的任意一个单词,就算查到结果。而match_phrase要求严格,不仅要求,要能够匹配到分词后的所有单词,且分词后的单词顺序也要和命中结果中的顺序保持一致。这样才算查到结果
推荐阅读
- ElasticsearchNEST高级客户端--Mapping映射
- 实践004-elasticsearch之Index Template和Dynamic Template
- elasticsearch mapping
- ElasticSearch5.4.3离线搭建
- spring data整合elasticsearch的applicationContext.xml文件模板
- elasticsearch的mapping和analysis
- elasticsearch index 之 put mapping
- ElasticSearch添加mapping
- elasticsearch index 之 Mapping