Redis server主从之间的断开重连
最近某项目,用了开源的 key-value 存储 Redis server,同事提出来用的。
会部署一个master和若干个slave。slave和master同步。
开发完了上线。第二天,发现slave与master断开了。master和slave放在不同机房的。进程都还在,只是没有同步,数据没有更新,因为master显示连接的slave少了。
这太吓人了,不会简单的断开重连都没实现吧,redis。
进一步分析,一开始如果slave没连上master,是会一直重试连接的。中间如果重启master进程或是杀掉,slave也会有不断地重连尝试的。
那就怪了。
后来发现,在redis master那端,用netstat查看tcp连接,跟slave的连接是没有了的,断开的。而在slave端查看tcp 连接,显示跟master的连接是Established状态的。也就是说,master端检测到TCP连接断开,所以log显示少了一个slave;而slave端因为某种原因,TCP连接无声无息断开,不能用了,但系统没检测到...而重连是由slave发起的,因为不知道连接坏了所以没有重连。
我就提出来两种解决办法:
第一种呢,Redis自己在应用层实现心跳机制,或者说ping。隔段时间ping一次,几个ping超时可以认为master与slave连接已经断开。
第二种,利用TCP只有的keepalive机制,不断得刷新TCP连接,也可以检测连接 实际断开形式还established的情况。
后来,同事在Redis网页上找到一个patch
http://code.google.com/p/redis/issues/detail?id=224
【Redis server主从之间的断开重连】
它就是对socket设置TCP Keepalive来解决的。
这个patch在最新的2.0的代码里已经有,不过前几天下载的就还没有这个patch。
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- gitlab|gitlab 通过备份还原 admin/runner 500 Internal Server Error
- springboot使用redis缓存
- MYSQL主从同步的实现
- (1)redis集群原理及搭建与使用(1)
- springboot结合redis实现搜索栏热搜功能及文字过滤
- SqlServer|sql server的UPDLOCK、HOLDLOCK试验
- Redis——发布订阅/消息队列
- redis|redis 常见问题一
- 实操Redission|实操Redission 分布式服务