Redis server主从之间的断开重连

最近某项目,用了开源的 key-value 存储 Redis server,同事提出来用的。
会部署一个master和若干个slave。slave和master同步。
开发完了上线。第二天,发现slave与master断开了。master和slave放在不同机房的。进程都还在,只是没有同步,数据没有更新,因为master显示连接的slave少了。

这太吓人了,不会简单的断开重连都没实现吧,redis。

进一步分析,一开始如果slave没连上master,是会一直重试连接的。中间如果重启master进程或是杀掉,slave也会有不断地重连尝试的。

那就怪了。
后来发现,在redis master那端,用netstat查看tcp连接,跟slave的连接是没有了的,断开的。而在slave端查看tcp 连接,显示跟master的连接是Established状态的。也就是说,master端检测到TCP连接断开,所以log显示少了一个slave;而slave端因为某种原因,TCP连接无声无息断开,不能用了,但系统没检测到...而重连是由slave发起的,因为不知道连接坏了所以没有重连。

我就提出来两种解决办法:
第一种呢,Redis自己在应用层实现心跳机制,或者说ping。隔段时间ping一次,几个ping超时可以认为master与slave连接已经断开。
第二种,利用TCP只有的keepalive机制,不断得刷新TCP连接,也可以检测连接 实际断开形式还established的情况。


后来,同事在Redis网页上找到一个patch
http://code.google.com/p/redis/issues/detail?id=224
【Redis server主从之间的断开重连】

它就是对socket设置TCP Keepalive来解决的。

这个patch在最新的2.0的代码里已经有,不过前几天下载的就还没有这个patch。

    推荐阅读