IBM LSF队列级别上的作业异常处理

集群管理 0 1041 张长瑞 收藏

你可以在队列上设置异常,这样LSF就会在作业运行时检测这些异常,并自动做出相应的处理。你还可以订制化异常以及相应的处理。默认情况下LSF不检测任何异常。

LSF可以检测的节点异常

如果你在队列上设定了异常处理,那么LSF就会自动检查如下的作业异常。

⊙作业运行时间过短—作业运行的时间过短,比预期的要短。如果有作业出现异常退出时,会触发这个异常。

作业运行时间过长—作业运行的时间过长。比预期的要长。默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检测异常的时间间隔。

作业过于清闲—运行的作业所消耗的CPU比预期的要少(是CPU使用时间与作业运行时间的比值)。默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检

测异常的时间间隔。

配置作业异常处理(lsb.queues)

你可以通过配置下列参数,来让你的队列检测作业异常;

JOB_IDLE(过于清闲)

指定一个清闲作业的阀值。这个值应该在0.0到1.0之间,所代表的是CPU使用时间与作业运行时间的比值。如果作业的清闲因子比所定义的阀值小,那么LSF就会触发eadmin来处理作业清闲异常所对应的处理。

JOB_OVERRUN(运行时间过长)

指定一个作业运行时间过长的阀值。如果有的作业运行时间超过这个阀值,那么LSF就会触发eadmin来处理作业运行时间过长异常所对应的处理。

JOB_UNDERRUN(运行时间过短)

指定一个作业运行时间过短的阀值。如果有的作业运行时间小于这个阀值,那么LSF就会触发eadmin来处理作业运行时间过短异常所对应的处理。

示例

下例中队列上定义了所有的作业异常阀值:

Begin Queue
...
JOB_UNDERRUN = 2
JOB_OVERRUN = 5
JOB_IDLE = 0.10
...
End Queue

针对这个对列:

如果有作业运行的时间少于2分钟,那么就会触发一个作业运行时间过短的异常;

如果有作业运行的时间大于5分钟,那么就会触发一个作业运行时间过长的异常;

如果有关作业的清闲因子(CPU使用时间与作业运行时间的比值)小于0.10,那么就会触发一个作业过于清闲的异常。

配置作业异常处理的阀值

默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检测异常(过长,过短或过于清闲)的时间间隔。

调优

-----------------------------------------------------------------

提示:调优JOB_EXIT_RATE_DURATION参数时要仔细考虑,过短的时间有可

能导致假警报,过长的时间则不能有效地触发异常。

-----------------------------------------------------------------


相关推荐:

网友留言:

您需要 登录账户 后才能发表评论

我要评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
验证码