ElasticSearch7.3|ElasticSearch7.3 学习之生产环境实时重建索引
1、实时重建索引
【ElasticSearch7.3|ElasticSearch7.3 学习之生产环境实时重建索引】在实际的生产环境中,一个field
的设置是不能被修改的,如果要修改一个Field
,那么应该重新按照新的mapping
,建立一个index
,然后将数据批量查询出来,重新用bulk api
写入index
中。
批量查询的时候,建议采用scroll api
,并且采用多线程并发的方式来reindex
数据。例如说每次scoll
就查询指定日期的一段数据,交给一个线程即可。
(1) 一开始,依靠dynamic mapping
,插入数据,但是不小心有些数据是2019-09-10
这种日期格式的,所以title
这种field
被自动映射为了date
类型,实际上它应该是string
类型的。
首先插入以下数据
PUT /my_index/_doc/1
{
"title": "2019-09-10"
}PUT /my_index/_doc/2
{
"title": "2019-09-11"
}
(2)当后期向索引中加入
string
类型的title
值的时候,就会报错PUT /my_index/_doc/3
{
"title": "my first article"
}
报错
{
"error": {
"root_cause": [
{
"type": "mapper_parsing_exception",
"reason": "failed to parse field [title] of type [date] in document with id '3'. Preview of field's value: 'my first article'"
}
],
"type": "mapper_parsing_exception",
"reason": "failed to parse field [title] of type [date] in document with id '3'. Preview of field's value: 'my first article'",
"caused_by": {
"type": "illegal_argument_exception",
"reason": "failed to parse date field [my first article] with format [strict_date_optional_time||epoch_millis]",
"caused_by": {
"type": "date_time_parse_exception",
"reason": "Failed to parse with all enclosed parsers"
}
}
},
"status": 400
}
(3)如果此时想修改
title
的类型,是不可能的PUT /my_index/_mapping
{
"properties": {
"title": {
"type": "text"
}
}
}
报错
{
"error": {
"root_cause": [
{
"type": "illegal_argument_exception",
"reason": "mapper [title] of different type, current_type [date], merged_type [text]"
}
],
"type": "illegal_argument_exception",
"reason": "mapper [title] of different type, current_type [date], merged_type [text]"
},
"status": 400
}
(4)此时,唯一的办法,就是进行
reindex
,也就是说,重新建立一个索引,将旧索引的数据查询出来,再导入新索引。(5)如果说旧索引的名字,是
old_index
,新索引的名字是new_index
,终端java
应用,已经在使用old_index
在操作了,难道还要去停止java
应用,修改使用的index
为new_index
,才重新启动java
应用吗?这个过程中,就会导致java
应用停机,可用性降低。(6)所以说,给
java
应用一个别名,这个别名是指向旧索引的,java
应用先用着,java
应用先用prod_index
来操作,此时实际指向的是旧的my_index
PUT /my_index/_alias/prod_index
(7)查看别名,会发现
my_index
已经存在一个别名prod_index
了。GET my_index/_alias
(8)新建一个
index
,调整其title
的类型为string
PUT /my_index_new
{
"mappings": {
"properties": {
"title": {
"type": "text"
}
}
}
}
(9)使用
scroll api
将数据批量查询出来GET /my_index/_search?scroll=1m
{
"query": {
"match_all": {}
},
"size": 1
}
返回
{
"_scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAARUMWQWx5bzRmTW9TeUNpNmVvN0E2dF9YQQ==",
"took" : 4,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 2,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "my_index",
"_type" : "_doc",
"_id" : "1",
"_score" : 1.0,
"_source" : {
"title" : "2019-09-10"
}
}
]
}
}
(9)采用
bulk api
将scoll
查出来的一批数据,批量写入新索引POST /_bulk
{"index":{"_index":"my_index_new","_id":"1"}}
{"title":"2019-09-10"}
(10)反复循环8~9,查询一批又一批的数据出来,采取
bulk api
将每一批数据批量写入新索引(11)将
my_index
索引的别名prod_index
切换到my_index_new
上去,java应用会直接通过index别名使用新的索引中的数据,java应用程序不需要停机,零提交,高可用POST /_aliases
{
"actions": [
{
"remove": {
"index": "my_index",
"alias": "prod_index"
}
},
{
"add": {
"index": "my_index_new",
"alias": "prod_index"
}
}
]
}
(12)直接通过
prod_index
别名来查询,是否okGET prod_index/_search
可以看到能够查询到新索引
my_index_new
的数据了{
"took" : 1117,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1,
"relation" : "eq"
},
"max_score" : 1.0,
"hits" : [
{
"_index" : "my_index_new",
"_type" : "_doc",
"_id" : "1",
"_score" : 1.0,
"_source" : {
"title" : "2019-09-10"
}
}
]
}
}
2、总结:
基于
alias
对client
透明切换index
PUT /my_index_v1/_alias/my_index
client
对my_index
进行操作reindex
操作,完成之后,切换v1到v2POST /_aliases
{
"actions": [
{ "remove": { "index": "my_index_v1", "alias": "my_index" }},
{ "add":{ "index": "my_index_v2", "alias": "my_index" }}
]
}
推荐阅读
- 极客星球 | 联邦学习与产品化之路
- 浏览器里玩机器学习、深度学习
- 我的|我的 5 年 Android 学习之路,那些年一起踩过的坑
- Java进阶学习路线(适合科班、非科班和已工作的仔)
- Python学习|Python 使用穷举法求两个数的最大公约数。
- 一个零基础学python能学会吗_Python真的零基础可以学会吗?
- python入门|如何在一个月学会python()
- NodeJS|教你撸一个网页聊天室
- java学习|喜欢看球,那就手撸一个看球小程序系统
- vue3和react17(三)|vue3和react17(三) - 生命周期(ts)