满堂花醉三千客,一剑霜寒十四洲。这篇文章主要讲述线上服务器too many open files 问题排查记录相关的知识,希望能为你提供帮助。
问题起因
周末在家瘫着突然接到反馈网站访问打开直接500错误,然后上去排查,发现很多服务启动不了,手动起服务提示too many open files,这句提示的原因是程序打开的文件/socket连接数量超过系统设定值。
登录服务器第一件事,先看下当前机器文件打开的最大限制(open files这行)
我这里是65535说明已经改过了,默认是1024
[root@10-23-52-95 rsyslog]# ulimit -a
core file size(blocks, -c) unlimited
data seg size(kbytes, -d) unlimited
scheduling priority(-e) 0
file size(blocks, -f) unlimited
pending signals(-i) 95711
max locked memory(kbytes, -l) 64
max memory size(kbytes, -m) unlimited
open files(-n) 65535
pipe size(512 bytes, -p) 8
POSIX message queues(bytes, -q) 819200
real-time priority(-r) 0
stack size(kbytes, -s) 10240
cpu time(seconds, -t) unlimited
max user processes(-u) 65535
virtual memory(kbytes, -v) unlimited
file locks(-x) unlimited
当然也可以用这种方式也可以:
[root@10-23-52-95 system]#cat /proc/sys/fs/file-max
65535
如果限制是1024可以改下,然后重启机器
[root@10-23-52-95 ~]# tail -n 10 /etc/security/limits.conf
End of file
hard nofile 1000000
soft nofile 1000000
soft core unlimited
soft stack 10240
soft nproc 65535
hard nproc 65535
soft nofile 65535
hard nofile 65535
看下当前系统具体占用了多少文件描述符
第一列是当前打开的,第三列是系统限制的最大打开数
[root@10-23-52-95 system]#cat /proc/sys/fs/file-nr
91840 65535
那接下来查下是哪些进程占光的查看打开文件句柄数的进程id排行 左边是数量,右边是进程ID,找到用的最多的进程,然后ps aux |grep 1661 就可以看到罪魁祸首了,再定位下具体进程就可以解决了
[root@10-23-52-95 ~]# lsof -n|awk {print $2}|sort|uniq -c|sort -nr|more
36894 1661
20618 29431
16716 29231
查看某一进程的文件描述符打开数
[root@10-23-52-95 ~]# lsof| grep 29431
【线上服务器too many open files 问题排查记录】
推荐阅读
- #yyds干货盘点#shell进阶之shift与select相关技术
- Selenium 4.0 Alpha更新实践
- 上古版本CentOS 6 yum换源教程 解决404 Not Found #yyds干货盘点#
- vim快捷键
- 在WordPress中根据季节交换头版
- Wpbakey插件/ Visual Composer中突然出现错误
- 无法在WordPress中应用Styles.css
- 将WordPress更改为RTL时出现奇怪的空白
- style.css在wordpress中不起作用