elasticsearch|使用logstash同步mysql数据到Elasticsearch
【elasticsearch|使用logstash同步mysql数据到Elasticsearch】1.下载
wget https://artifacts.elastic.co/downloads/logstash/logstash-7.7.0.tar.gz
2.解压
tar -zvxf logstash-7.7.0.tar.gz
3.修改jvm
jvm.options 默认
-Xms1g
-Xmx1g
我机器内存很小所以需要修改
/opt/logstash-7.7.0/config# vim jvm.options -Xms512m
-Xmx512m
4.运行
/opt/logstash-7.7.0/bin#./logstash -e 'input { stdin { } } output { stdout {} }'
5.安装 jdbc 和 elasticsearch 插件
/opt/logstash-7.7.0# bin/logstash-plugin install logstash-input-jdbc
Validating logstash-input-jdbc
Installing logstash-input-jdbc
Installation successful
/opt/logstash-7.7.0# bin/logstash-plugin install logstash-output-elasticsearch
Validating logstash-output-elasticsearch
Installing logstash-output-elasticsearch
Installation successful
6.下载mysql-connector-java
7.编写配置文件 sync_table.conf
注意:数据库中删除的数据无法同步到ES中,只能同步insert update 数据
/opt/logstash-7.7.0/config# vim sync_table.conf
input {jdbc {# mysql相关jdbc配置
jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false"
jdbc_user => "root"
jdbc_password => "123456"# jdbc连接mysql驱动的文件此处路径一定要正确 否则会报com.mysql.cj.jdbc.Driver could not be loaded
jdbc_driver_library => "/opt/logstash-7.7.0/sync_config/mysql-connector-java-8.0.13.jar"
# the name of the driver class for mysql
jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
jdbc_paging_enabled => true
jdbc_page_size => "50000"jdbc_default_timezone =>"Asia/Shanghai"# mysql文件, 也可以直接写SQL语句在此处,如下:
# 如果要使字段和实体类的驼峰命名法一致则需要这样写sqlselect d_name as dName, c_id as cId from area where update_time >= :sql_last_value order by update_time asc
statement => "select * from area where update_time >= :sql_last_value order by update_time asc"
# statement_filepath => "./config/jdbc.sql"# 这里类似crontab,可以定制定时操作,比如每分钟执行一次同步(分 时 天 月 年)
schedule => "* * * * *"
#type => "jdbc"
# 是否记录上次执行结果, 如果为真,将会把上次执行到的 tracking_column 字段的值记录下来,保存到 last_run_metadata_path 指定的文件中
#record_last_run => true# 是否需要记录某个column 的值,如果record_last_run为真,可以自定义我们需要 track 的 column 名称,此时该参数就要为 true. 否则默认 track 的是 timestamp 的值.
use_column_value => true# 如果 use_column_value 为真,需配置此参数. track 的数据库 column 名,该 column 必须是递增的. 一般是mysql主键
tracking_column => "update_time"tracking_column_type => "timestamp"last_run_metadata_path => "area_logstash_capital_bill_last_id"# 是否清除 last_run_metadata_path 的记录,如果为真那么每次都相当于从头开始查询所有的数据库记录
clean_run => false#是否将 字段(column) 名称转小写
#lowercase_column_names => false
}
}filter {date {match => [ "update_time", "yyyy-MM-dd HH:mm:ss" ]
timezone => "Asia/Shanghai"
}
}output {elasticsearch {hosts => ["127.0.0.1:9200"]
# index名 自定义 相当于数据库 对于实体类上@Document(indexName = "sys_core", type = "area")indexName
index => "sys_core"
#索引的类型 相当于数据库里面的表 对于实体类上@Document(indexName = "sys_core", type = "area")type
document_type => "area"
#需要关联的数据库中有有一个id字段,对应索引的id号
document_id => "%{id}"
template_overwrite => true
}# 这里输出调试,正式运行时可以注释掉
stdout {codec => json_lines
}
}
8.启动
/opt/logstash-7.7.0# bin/logstash -f config/sync_table.cfg
9…配置同步多张表
比如想同步tableA tableB tableC 3张表 则需要创建3个 sync_table.conf 文件 sync_tableA.conf sync_tableB.conf sync_tableC.conf
只是修改里面的sql语句和索引名
sync_table.conf 文件创建好后最后在 /opt/logstash-7.7.0/config/pipelines.yml 配置
- pipeline.id: table1
path.config: "/opt/logstash-7.7.0/sync_config/sync_tableA.conf"
- pipeline.id: table2
path.config: "/opt/logstash-7.7.0/sync_config/ sync_tableB.conf"
- pipeline.id: table3
path.config: "/opt/logstash-7.7.0/sync_config/sync_tableC.conf"
10.然后启动
/opt/logstash-7.7.0# bin/logstash
推荐阅读
- 由浅入深理解AOP
- 【译】20个更有效地使用谷歌搜索的技巧
- mybatisplus如何在xml的连表查询中使用queryWrapper
- MybatisPlus|MybatisPlus LambdaQueryWrapper使用int默认值的坑及解决
- MybatisPlus使用queryWrapper如何实现复杂查询
- iOS中的Block
- Linux下面如何查看tomcat已经使用多少线程
- 使用composer自动加载类文件
- android|android studio中ndk的使用
- 使用协程爬取网页,计算网页数据大小