SGE常用命令
从搭建集群和使用集群…
进过不少坑……
对常用命令做一下笔记…
常用查看命令
- 【SGE常用命令】查看主机情况
qhost -q
BIP 正常
可以通过下列方法对某个队列上的的节点进行操作
E 错误状态
a 警告(a generic indicator of badness)
u 无法连接
d 被管理员设置无法使用
- 清除错误
qmod -c all.q@cca-train02
- 设置节点不可用
qmod -d all.q@cca-train02
- 设置节点可用
qmod -e all.q@cca-train02
- 重启节点,详细操作见后
- 清除错误
- 查看进程运行情况
qstat -f
状态码 详细信息 r 正在执行 t 把节点跑死了,若长期处于 t 状态请杀掉该进程,占用大量资源 s 被暂时挂起,往往是由于优先级更高的job抢占了资源 dr/dt 节点挂了之后,删除任务会出现这个状态,只有节点重启任务才会消失 qw 正在等待,一旦有计算资源会马上执行 Eqw job的提交产生错误 hqw 该job依赖于其它正在执行的job,待前面的job执行完毕后再开始执行
(a)larm, (u)nreachable, (E)rror state
(au) whenever: - A node is down - A node is hung/frozen - Network problems
遇到错误状态怎么办?
- 查看某一个任务的详细情况,找到错误
qstat -j
qalter -w v job-id
- 将某个队列从错误状态转变回正常状态
qmod -c all.q
- 遇到dr/dt状态请依次尝试下方的解决方法
参考网址
qdel -j
qdel -f
sudo qdel -f
- 重启
[centos]: cd $SGE_ROOT/default/common/ sudo ./sgemaster start sudo ./sgeexecd start[linux]: sudo /etc/init.d/gridengine-exec stop
- 问题没有解决请百度或者谷歌
- 查看某一个任务的详细情况,找到错误
- 查看某一个任务的情况
qstat -j
- 查看所有用户的任务
qstat -u '*'
- 按照状态对job进行查看
- 检查正在执行的job
qstat -s r
- 检查被挂起的job
qstat -s p
- 检查正在执行的job
推荐阅读
- 标签、语法规范、内联框架、超链接、CSS的编写位置、CSS语法、开发工具、块和内联、常用选择器、后代元素选择器、伪类、伪元素。
- 数组常用方法一
- 你命令我爱你吧(原创)
- 常用git命令总结
- java|java 常用知识点链接
- 用Go构建区块链——3.持久化和命令行
- 《读_Head_First_有感》_“命令模式”
- locate搜索
- c#常用网址记录
- 5|5 个 PPT 常用快捷键带你从此走向高效