elasticsearch搜索过程 elasticsearch搜索过程

title: elasticsearch搜索过程
date: 2020-10-16 09:00:39
categories: elk
tags:
- 全文搜索
- elasticsearch
此文档只阐述搜索过程，其他如新建文档、删除文档等另外讲解（这些都是单个文档的增删改查，重点记住需要同步副本就行）
执行分布式搜索，是一种比较复杂的模型，因为我们不知道对应的查询会在哪些文档里命中，所以我们必须询问索引中所有的分片，但记住不是所有的副本。
由于数据在每个分片中的排列并不等于在整个索引中的排列，因此有了如下两个阶段：查询和取回query then fetch
查询阶段整个过程如下图所示：

客户端发送请求到某个节点（负载均衡或者指定），这个节点就变为coordinating协调节点，
这个节点的工作，就是将请求发送到每个分片的主分片或者副分片（也就是每个分片一个，并不是所有的副本），从这里看出，越多的分片可以增加ES搜索的带宽，因为我们把搜索拆分成多个。
每个分片首先查询是否有缓存，如果有，则直接查询缓存，没有则对索引进行查询，如果成功，则回调onShardResult返回id，如果失败，则回调失败，并尝试在副本分片上查询，将自己查询的结果返回给协调节点（注意，这里只是返回di和排序值，也就是很小一部分数据），协调节点对这些集合再进行排序.

文章图片
查询过程

取回阶段在上一步查询出准确[from,from+size]之间的结果后，就准备开始第二个阶段。注意，这里有一个深分页的问题，也就是from太大，会使得每个分片查询任务更重，合并后排序也更慢。不过好在这种情况一般不会出现。

协调节点辨别出哪些文档需要被取回并向相关的分片提交多个 GET 请求。
每个分片加载并按照需求丰富文档，如果有需要的话，接着返回文档给协调节点。
一旦所有的文档都被取回了，协调节点返回结果给客户端。

分片搜索过程——Lucene倒排索引在 Lucene 中，一个文档由一组简单的键值对组成。每个字段都可以有多个值，但至少要有一个值。类似的，一个字符串可以通过分析过程转化为多个值。Lucene 不关心这些值是字符串、数字或日期—?所有的值都被当做不透明字节。
当我们在 Lucene 中索引一个文档时，每个字段的值都被添加到相关字段的倒排索引中(每个被索引的字段都有自己的倒排索引)。你也可以将未处理的原始数据存储起来，以便这些原始数据在之后也可以被检索到。
举例，假设我们有如下两个字段：

The quick brown fox jumped over the lazy dog
Quick brown foxes leap over lazy dogs in summer

Term	Doc_1	Doc_2	Doc_3
brown	X		X	...
fox	X	X	X	...
quick	X	X		...
the	X		X	...

不变性
倒排索引在被写入磁盘后，是永远不会修改的，它带来了一些有用的特性：

不需要锁
一段索引被读入文件系统缓存，便留在那里，请求可以直接在内存中进行，提升了性能
其他缓存（如filter），在索引的生命周期有效
写入单个大的倒排索引允许数据压缩
上面是它的一些优势，相反，它会有一些缺点，最大的问题是，一旦有文档加入，我们需要重建整个索引，怎么解决？es采取了一种追加的方式：

动态更新索引
每一个倒排索引都会被轮流查询到—?从最早的开始—?查询完后再对结果进行合并。

按段搜索

聚合操作举个例子
如果聚合查询里有带过滤条件或检索条件，先由倒排索引完成搜索，确定文档范围，再由正排索引提取field，最后做聚合计算。

POST /cars/transactions/_bulk { "index": {}} { "price" : 10000, "color" : "red", "make" : "honda", "sold" : "2014-10-28" } { "index": {}} { "price" : 20000, "color" : "red", "make" : "honda", "sold" : "2014-11-05" } { "index": {}} { "price" : 30000, "color" : "green", "make" : "ford", "sold" : "2014-05-18" } { "index": {}} { "price" : 15000, "color" : "blue", "make" : "toyota", "sold" : "2014-07-02" } { "index": {}} { "price" : 12000, "color" : "green", "make" : "toyota", "sold" : "2014-08-19" } { "index": {}} { "price" : 20000, "color" : "red", "make" : "honda", "sold" : "2014-11-05" } { "index": {}} { "price" : 80000, "color" : "red", "make" : "bmw", "sold" : "2014-01-01" } { "index": {}} { "price" : 25000, "color" : "blue", "make" : "ford", "sold" : "2014-02-12" }

汽车经销商可能会想知道哪个颜色的汽车销量最好，用聚合可以轻易得到结果，用 terms 桶操作
如果使用倒排索引的思想，那么我们会对，red进行一遍搜索，然后再对green...进行搜索，显然操作次数太多
这个时候使用dock_value的方式就显得和合适了。

确定文档范围
对每个doc，提取field，
统计每个color的次数

【elasticsearch搜索过程】正排索引也是索引时生成(index-time)，倒排索引也是index-time。
核心写入原理与倒排索引类似，同样基于不变原理设计，也写os cache，磁盘等，os cache要存放所有的doc value，存不下时放磁盘。
性能问题，jvm内存少用点，os cache搞大一些，如64G内存的机器，jvm设置为16G，os cache内存给个32G左右，os cache够大才能提升正排索引的缓存和查询效率。