Elasticsearch
自动补全与基于上下文的提示
The Completion Suggester
- Completion Suggester提供了“自动完成”(Auto Complete)的功能。用户每输入一个
字符,就需要即时发送一个查询请求到后段查找匹配项 - 对性能要 求比较苛刻。Elasticsearch 采用了不同的数据结构,并非通过倒排索弓|来完成。
而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个加载进内存,
速度很快 - FST只能用于前缀查找
文章图片
索引数据
文章图片
搜索数据
文章图片
什么是Context Suggester
- Completion Suggester的扩展
- 可以在搜索中加入更多的上下文信息,例如,输入“star”
- 咖啡相关: 建议“Starbucks’
- 电影相关: “star wars” .
- 可以定 义两种类型的Context
- Category 一任意的字符串
- Geo一地理位置信息
- 实现 Context Suggester的具体步骤
- 定制一个 Mapping
- 索引数据,并且为每个文档加入Context信息
- 结合Context进行Suggestion查询
文章图片
索引数据
文章图片
不同的上下文,自动提示
文章图片
精准度和召回率
- 精准度
- Completion > Phrase > Term
- 召回率
- Term > Phrase > Completion
- 性能
- Completion > Phrase > Term
DELETE articles
PUT articles
{
"mappings": {
"properties": {
"title_completion":{
"type": "completion"
}
}
}
}POST articles/_bulk
{ "index" : { } }
{ "title_completion": "lucene is very cool"}
{ "index" : { } }
{ "title_completion": "Elasticsearch builds on top of lucene"}
{ "index" : { } }
{ "title_completion": "Elasticsearch rocks"}
{ "index" : { } }
{ "title_completion": "elastic is the company behind ELK stack"}
{ "index" : { } }
{ "title_completion": "Elk stack rocks"}
{ "index" : {} }POST articles/_search?pretty
{
"size": 0,
"suggest": {
"article-suggester": {
"prefix": "elk ",
"completion": {
"field": "title_completion"
}
}
}
}DELETE comments
PUT comments
PUT comments/_mapping
{
"properties": {
"comment_autocomplete":{
"type": "completion",
"contexts":[{
"type":"category",
"name":"comment_category"
}]
}
}
}POST comments/_doc
{
"comment":"I love the star war movies",
"comment_autocomplete":{
"input":["star wars"],
"contexts":{
"comment_category":"movies"
}
}
}POST comments/_doc
{
"comment":"Where can I find a Starbucks",
"comment_autocomplete":{
"input":["starbucks"],
"contexts":{
"comment_category":"coffee"
}
}
}POST comments/_search
{
"suggest": {
"MY_SUGGESTION": {
"prefix": "sta",
"completion":{
"field":"comment_autocomplete",
"contexts":{
"comment_category":"coffee"
}
}
}
}
}
本节知识点回顾
- Completion Suggester,对性能要求比较苛刻。采用了不同的数据结构,并非通过倒排
索引来完成。而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个
加载进内存,速度很快 - 需 要设置特定的Mapping
- Context Completion Suggester支持结合不同的上下文,给出推荐.
- 单集群一 当水平扩展时,节点数不能无限增加
- 当集群的meta信息(节点, 索引,集群状态)过多,会导致更新压力变大,单
个Active Master会成为性能瓶颈,导致整个集群无法正常工作
- 当集群的meta信息(节点, 索引,集群状态)过多,会导致更新压力变大,单
- 早期版本, 通过Tribe Node可以实现多集群访问的需求,但是还存在-定的问题
- Tribe Node会以Client Node的方式加入每个集群。集 群中Master节点的任
务变更需要Tribe Node的回应才能继续 - Tribe Node不保存Cluster State信息,一旦重启,初始化很慢
- 当多个 集群存在索引重名的情况时,只能设置一种Prefer规则
- Tribe Node会以Client Node的方式加入每个集群。集 群中Master节点的任
- 早期 Tribe Node的方案存在- -定的问题,现已被Deprecated
- Elasticsearch 5.3引入了跨集群搜索的功能(Cross Cluster Search),推荐使用
- 允许任何节点扮演federated节点,以轻量的方式,将搜索请求进行代理
- 不需要以 Client Node的形式加入其他集群
文章图片
知识点回顾
- 当集群无法水平扩展,或者需要将不同的集群数据实现数据的Federation,可以采用跨
集群搜索(CCS)
- Tribe Node和Cross Cluster Search的比较,推荐在新版本中使用CCS
- 【elasticsearch|Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索】如何配置并 使用Cross Cluster Search查询数据
//启动3个集群bin/elasticsearch -E node.name=cluster0node -E cluster.name=cluster0 -E path.data=https://www.it610.com/article/cluster0_data -E discovery.type=single-node -E http.port=9200 -E transport.port=9300
bin/elasticsearch -E node.name=cluster1node -E cluster.name=cluster1 -E path.data=cluster1_data -E discovery.type=single-node -E http.port=9201 -E transport.port=9301
bin/elasticsearch -E node.name=cluster2node -E cluster.name=cluster2 -E path.data=cluster2_data -E discovery.type=single-node -E http.port=9202 -E transport.port=9302//在每个集群上设置动态的设置
PUT _cluster/settings
{"persistent": {
"cluster": {
"remote": {
"cluster0": {
"seeds": [
"127.0.0.1:9300"
],
"transport.ping_schedule": "30s"
},
"cluster1": {
"seeds": [
"127.0.0.1:9301"
],
"transport.compress": true,
"skip_unavailable": true
},
"cluster2": {
"seeds": [
"127.0.0.1:9302"
]
}
}
}
}
}#cURL
curl -XPUT "http://localhost:9200/_cluster/settings" -H 'Content-Type: application/json' -d'
{"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'curl -XPUT "http://localhost:9201/_cluster/settings" -H 'Content-Type: application/json' -d'
{"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'curl -XPUT "http://localhost:9202/_cluster/settings" -H 'Content-Type: application/json' -d'
{"persistent":{"cluster":{"remote":{"cluster0":{"seeds":["127.0.0.1:9300"],"transport.ping_schedule":"30s"},"cluster1":{"seeds":["127.0.0.1:9301"],"transport.compress":true,"skip_unavailable":true},"cluster2":{"seeds":["127.0.0.1:9302"]}}}}}'#创建测试数据
curl -XPOST "http://localhost:9200/users/_doc" -H 'Content-Type: application/json' -d'
{"name":"user1","age":10}'curl -XPOST "http://localhost:9201/users/_doc" -H 'Content-Type: application/json' -d'
{"name":"user2","age":20}'curl -XPOST "http://localhost:9202/users/_doc" -H 'Content-Type: application/json' -d'
{"name":"user3","age":30}'#查询
GET /users,cluster1:users,cluster2:users/_search
{
"query": {
"range": {
"age": {
"gte": 20,
"lte": 40
}
}
}
}
推荐阅读
- elasticsearch|Elasticsearch-18.综合排序:Function Score Query 优化算分和Term&PhraseSuggester
- 中间件|(ElasticSearch02)day80分布式查漏补缺
- java|win7下Elasticsearch、Kibana安装
- 微服务专题笔记|ElasticSearch——DSL查询及结果处理
- 如何使用Jupyter Notebook(-终极指南)
- Elasticsearch掰开揉碎第3篇windows环境搭建
- Elasticsearch掰开揉碎第2篇linux环境搭建
- 学习|学习笔记(深度学习(2)——BP神经网络)
- python|爬虫scrapy框架不理解(通俗?点告诉你)