simv没有响应lsf发送的恢复进程状态信号

集群管理 0 1065 佚名 收藏

背景: 运行在lsf 计算节点中的simv任务因计算节点内存不足,simv任务被挂起,从LSF 任务可以看到simv job 状态是SSUSP。


lsf 查看simv job 进程变化,1.因内存不足挂起 2.在内存可用后lsf simv发送sigcont 信号(显示Running)


1.jpg

 simv 运行端看到的log 始终停留在以下位置

2.jpg

 解决方法:

1.        bhist -l <job id> #记录下Starting Pid xxxx, 这个pid是运行simv对应的lsf res 进程

2.        ssh 登录到运行simv的计算节点

3.        pstree -p <res pid> #查看simv对应的pid

4.        top -p <simv pid> #可以看到任务是T状态,说明simv进程仍处于暂停状态

5.        kill -18 <simv pid> #向进程发送sigcont 18 恢复信号

6.        top -p <simv pid> #检查simv进程状态是否变为R,如果没有转换到R状态,可以重复步骤5

 

#先查找res pid对应的simv pid,然后查看simv 进程状态

 #linux端恢复simv进程状态后,检查simv任务输出是否更新

5.jpg

 

 


相关推荐:

网友留言:

您需要 登录账户 后才能发表评论

我要评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
验证码