SGE常用命令

从搭建集群和使用集群…
进过不少坑……
对常用命令做一下笔记…
常用查看命令

  • 【SGE常用命令】查看主机情况qhost -q
    BIP 正常
    E 错误状态
    a 警告(a generic indicator of badness)
    u 无法连接
    d 被管理员设置无法使用
    可以通过下列方法对某个队列上的的节点进行操作
    • 清除错误 qmod -c all.q@cca-train02
    • 设置节点不可用 qmod -d all.q@cca-train02
    • 设置节点可用 qmod -e all.q@cca-train02
    • 重启节点,详细操作见后
  • 查看进程运行情况qstat -f
    状态码 详细信息
    r 正在执行
    t 把节点跑死了,若长期处于 t 状态请杀掉该进程,占用大量资源
    s 被暂时挂起,往往是由于优先级更高的job抢占了资源
    dr/dt 节点挂了之后,删除任务会出现这个状态,只有节点重启任务才会消失
    qw 正在等待,一旦有计算资源会马上执行
    Eqw job的提交产生错误
    hqw 该job依赖于其它正在执行的job,待前面的job执行完毕后再开始执行
    qstat -f 结果中的states
    (a)larm, (u)nreachable, (E)rror state
    (au) whenever: - A node is down - A node is hung/frozen - Network problems
    遇到错误状态怎么办?
    • 查看某一个任务的详细情况,找到错误
      qstat -j
      qalter -w v job-id
    • 将某个队列从错误状态转变回正常状态
      qmod -c all.q
    • 遇到dr/dt状态请依次尝试下方的解决方法
      参考网址
      qdel -j
      qdel -f
      sudo qdel -f
    • 重启
      [centos]: cd $SGE_ROOT/default/common/ sudo ./sgemaster start sudo ./sgeexecd start[linux]: sudo /etc/init.d/gridengine-exec stop

    • 问题没有解决请百度或者谷歌
  • 查看某一个任务的情况
    qstat -j
  • 查看所有用户的任务
    qstat -u '*'
  • 按照状态对job进行查看
    • 检查正在执行的job
      qstat -s r
    • 检查被挂起的job
      qstat -s p
P.S. 感谢 @Leon晋 师兄滴指正 ^ ^~

    推荐阅读