elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索

Elasticsearch 自动补全与基于上下文的提示 The Completion Suggester

  • Completion Suggester提供了“自动完成”(Auto Complete)的功能。用户每输入一个
    字符,就需要即时发送一个查询请求到后段查找匹配项
  • 对性能要 求比较苛刻。Elasticsearch 采用了不同的数据结构,并非通过倒排索弓|来完成。
    而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个加载进内存,
    速度很快
  • FST只能用于前缀查找
使用Completion Suggester的一些步骤
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

索引数据
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

搜索数据elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

什么是Context Suggester
  • Completion Suggester的扩展
  • 可以在搜索中加入更多的上下文信息,例如,输入“star”
    • 咖啡相关: 建议“Starbucks’
    • 电影相关: “star wars” .
实现Context Suggester
  • 可以定 义两种类型的Context
    • Category 一任意的字符串
    • Geo一地理位置信息
  • 实现 Context Suggester的具体步骤
    • 定制一个 Mapping
    • 索引数据,并且为每个文档加入Context信息
    • 结合Context进行Suggestion查询
定义Mapping
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

索引数据
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

不同的上下文,自动提示
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

精准度和召回率
  • 精准度
    • Completion > Phrase > Term
  • 召回率
    • Term > Phrase > Completion
  • 性能
    • Completion > Phrase > Term
API
DELETE articles PUT articles { "mappings": { "properties": { "title_completion":{ "type": "completion" } } } }POST articles/_bulk { "index" : { } } { "title_completion": "lucene is very cool"} { "index" : { } } { "title_completion": "Elasticsearch builds on top of lucene"} { "index" : { } } { "title_completion": "Elasticsearch rocks"} { "index" : { } } { "title_completion": "elastic is the company behind ELK stack"} { "index" : { } } { "title_completion": "Elk stack rocks"} { "index" : {} }POST articles/_search?pretty { "size": 0, "suggest": { "article-suggester": { "prefix": "elk ", "completion": { "field": "title_completion" } } } }DELETE comments PUT comments PUT comments/_mapping { "properties": { "comment_autocomplete":{ "type": "completion", "contexts":[{ "type":"category", "name":"comment_category" }] } } }POST comments/_doc { "comment":"I love the star war movies", "comment_autocomplete":{ "input":["star wars"], "contexts":{ "comment_category":"movies" } } }POST comments/_doc { "comment":"Where can I find a Starbucks", "comment_autocomplete":{ "input":["starbucks"], "contexts":{ "comment_category":"coffee" } } }POST comments/_search { "suggest": { "MY_SUGGESTION": { "prefix": "sta", "completion":{ "field":"comment_autocomplete", "contexts":{ "comment_category":"coffee" } } } } }

本节知识点回顾
  • Completion Suggester,对性能要求比较苛刻。采用了不同的数据结构,并非通过倒排
    索引来完成。而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个
    加载进内存,速度很快
  • 需 要设置特定的Mapping
  • Context Completion Suggester支持结合不同的上下文,给出推荐.
跨集群搜索 水平扩展的痛点
  • 单集群一 当水平扩展时,节点数不能无限增加
    • 当集群的meta信息(节点, 索引,集群状态)过多,会导致更新压力变大,单
      个Active Master会成为性能瓶颈,导致整个集群无法正常工作
  • 早期版本, 通过Tribe Node可以实现多集群访问的需求,但是还存在-定的问题
    • Tribe Node会以Client Node的方式加入每个集群。集 群中Master节点的任
      务变更需要Tribe Node的回应才能继续
    • Tribe Node不保存Cluster State信息,一旦重启,初始化很慢
    • 当多个 集群存在索引重名的情况时,只能设置一种Prefer规则
跨集群搜索- Cross Cluster Search
  • 早期 Tribe Node的方案存在- -定的问题,现已被Deprecated
  • Elasticsearch 5.3引入了跨集群搜索的功能(Cross Cluster Search),推荐使用
    • 允许任何节点扮演federated节点,以轻量的方式,将搜索请求进行代理
    • 不需要以 Client Node的形式加入其他集群
配置及查询
elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
文章图片

知识点回顾
  • 当集群无法水平扩展,或者需要将不同的集群数据实现数据的Federation,可以采用跨
    集群搜索(CCS)
  • Tribe Node和Cross Cluster Search的比较,推荐在新版本中使用CCS
  • 【elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索】如何配置并 使用Cross Cluster Search查询数据
API
//启动3个集群bin/elasticsearch -E node.name=cluster0node -E cluster.name=cluster0 -E path.data=https://www.it610.com/article/cluster0_data -E discovery.type=single-node -E http.port=9200 -E transport.port=9300 bin/elasticsearch -E node.name=cluster1node -E cluster.name=cluster1 -E path.data=cluster1_data -E discovery.type=single-node -E http.port=9201 -E transport.port=9301 bin/elasticsearch -E node.name=cluster2node -E cluster.name=cluster2 -E path.data=cluster2_data -E discovery.type=single-node -E http.port=9202 -E transport.port=9302//在每个集群上设置动态的设置 PUT _cluster/settings {"persistent": { "cluster": { "remote": { "cluster0": { "seeds": [ "127.0.0.1:9300" ], "transport.ping_schedule": "30s" }, "cluster1": { "seeds": [ "127.0.0.1:9301" ], "transport.compress": true, "skip_unavailable": true }, "cluster2": { "seeds": [ "127.0.0.1:9302" ] } } } } }#cURL curl -XPUT "http://localhost:9200/_cluster/settings" -H 'Content-Type: application/json' -d' {"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'curl -XPUT "http://localhost:9201/_cluster/settings" -H 'Content-Type: application/json' -d' {"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'curl -XPUT "http://localhost:9202/_cluster/settings" -H 'Content-Type: application/json' -d' {"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'#创建测试数据 curl -XPOST "http://localhost:9200/users/_doc" -H 'Content-Type: application/json' -d' {"name":"user1","age":10}'curl -XPOST "http://localhost:9201/users/_doc" -H 'Content-Type: application/json' -d' {"name":"user2","age":20}'curl -XPOST "http://localhost:9202/users/_doc" -H 'Content-Type: application/json' -d' {"name":"user3","age":30}'#查询 GET /users,cluster1:users,cluster2:users/_search { "query": { "range": { "age": { "gte": 20, "lte": 40 } } } }

    推荐阅读