你可以在队列上设置异常,这样LSF就会在作业运行时检测这些异常,并自动做出相应的处理。你还可以订制化异常以及相应的处理。默认情况下LSF不检测任何异常。
LSF可以检测的节点异常
如果你在队列上设定了异常处理,那么LSF就会自动检查如下的作业异常。
⊙作业运行时间过短—作业运行的时间过短,比预期的要短。如果有作业出现异常退出时,会触发这个异常。
⊙作业运行时间过长—作业运行的时间过长。比预期的要长。默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检测异常的时间间隔。
⊙ 作业过于清闲—运行的作业所消耗的CPU比预期的要少(是CPU使用时间与作业运行时间的比值)。默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检
测异常的时间间隔。
配置作业异常处理(lsb.queues)
你可以通过配置下列参数,来让你的队列检测作业异常;
JOB_IDLE(过于清闲)
指定一个清闲作业的阀值。这个值应该在0.0到1.0之间,所代表的是CPU使用时间与作业运行时间的比值。如果作业的清闲因子比所定义的阀值小,那么LSF就会触发eadmin来处理作业清闲异常所对应的处理。
JOB_OVERRUN(运行时间过长)
指定一个作业运行时间过长的阀值。如果有的作业运行时间超过这个阀值,那么LSF就会触发eadmin来处理作业运行时间过长异常所对应的处理。
JOB_UNDERRUN(运行时间过短)
指定一个作业运行时间过短的阀值。如果有的作业运行时间小于这个阀值,那么LSF就会触发eadmin来处理作业运行时间过短异常所对应的处理。
示例
下例中队列上定义了所有的作业异常阀值:
Begin Queue ... JOB_UNDERRUN = 2 JOB_OVERRUN = 5 JOB_IDLE = 0.10 ... End Queue
针对这个对列:
⊙如果有作业运行的时间少于2分钟,那么就会触发一个作业运行时间过短的异常;
⊙如果有作业运行的时间大于5分钟,那么就会触发一个作业运行时间过长的异常;
⊙如果有关作业的清闲因子(CPU使用时间与作业运行时间的比值)小于0.10,那么就会触发一个作业过于清闲的异常。
配置作业异常处理的阀值
默认情况下LSF每隔1分钟检测一次。请修改lsb.params文件中的EADMIN_TRIGGER_DURARION参数来调整LSF检测异常(过长,过短或过于清闲)的时间间隔。
调优
-----------------------------------------------------------------
提示:调优JOB_EXIT_RATE_DURATION参数时要仔细考虑,过短的时间有可
能导致假警报,过长的时间则不能有效地触发异常。
-----------------------------------------------------------------
网友留言: