IBM LSF节点控制

集群管理 0 2836 张长瑞 收藏

节点的开启与关闭,可由LSF管理员或Root用户通过命令来管理,也可以通过设置派发窗口来管理。

关闭一个节点

运行badmin hclose:

badmin hclose hostB
Close <hostB> ...... done

如果命令失效,则可能是由于网络连接的问题引起的,也可能是节点上的守护进程失效了。

开启一个节点

运行badmin hopen:

badmin hopen hostB
Open <hostB> ...... done

设置派发窗口

派发窗口指定一个或多个时间段,在这些时间段内节点是接受作业的,而在其他时间是不接受作业的。派发窗口不影响你提交作业或已经在运行中的作业,这些作业会一直被允许运行到结束。默认情况下,LSF并没有设置派发窗口。可以按下面的步骤设置它

1 编辑 lsb.hosts

2 在DISPATCH_WINDOW域内,设置一个或多个时间窗口:

Begin Host
HOST_NAME r1m pg ls tmp DISPATCH_WINDOW
...
hostB 3.5/4.5 15/ 12/15 0 (4:30-12:00)
...
End Host

3 重新设置集群

A 使用

lsadmin reconfig

命令来重设LIM

B 使用

badmin reconfig

命令来重设mbatchd

4 使用bhosts –l来显示所设置的派发窗口值

在开启与关闭节点时,登记一条注释信息

使用badmin hclose 与 badmin hopen命令的-C选项,来向lsb.events中添加一条注释信息:

Badmin hclose –C “Weekly backup” hostB

相关的注释信息“Weekly backup”将会被登记到lsb.events文件中。如果你开启或关闭的是节点组,那么每个节点组成员都会显示相同的注释。

每次开启或关闭,都会产生一条新的事件记录。比如:

Badmin hclose –C “backup” hostA

之后,你又运行

Badmin hclose –C “Weekly backup” hostA

那么会在lsb.events文件中,产生如下的记录:

"HOST_CTRL" "7.0 1050082346 1 "hostA" 32185 "lsfadmin" "backup"
"HOST_CTRL" "7.0 1050082373 1 "hostA" 32185 "lsfadmin" "Weekly backup"

使用badmin hist与badmin hhist命令来显示在开启或关闭节点时所登记的信息:

badmin hhist
Fri Apr 4 10:35:31: Host <hostB> closed by administrator
<lsfadmin> Weekly backup.

bhosts –l命令也能够显示所登记的信息:

bhosts -l

HOST hostA
STATUS     CPUF  JL/U  MAX  NJOBS  RUN  SSUSP  USUSP  RSV  DISPATCH_WINDOW
closed_Adm 1.00   -     -     0     0     0      0     0          -

CURRENT LOAD USED FOR SCHEDULING:
        r15s  r1m  r15m  ut  pg  io  ls  it  tmp  swp  mem
Total      0.0  0.0  0.0   2%   0.0   64  2    11  7117M  512M   432M
Reserved     0.0   0.0   0.0    0%   0.0   0   0    0     0M    0M     0M

LOAD THRESHOLD USED FOR SCHEDULING:
                 r15s  r1m  r15m  ut  pg  io  ls  it  tmp  swp  mem
loadSched         -   -    -  -   -  -  -  -  -   -   -
loadStop          -    -     -   -    -   -   -   -   -    -    -
                 cpuspeed bandwidth
loadSched         -         -
loadStop          -         -
THRESHOLD AND LOAD USED FOR EXCEPTIONS:
                 JOB_EXIT_RATE
Threshold       2.00
Load            0.00
ADMIN ACTION COMMENT: "Weekly backup"

在多集群租用模式下,事件是如何登记与显示的?

在多集群资源租用模式下,有关节点控制的管理员注释信息只登记在本地集群的lsb.events文件中。Badmin hist 和 badmin hhist 命令只能显示本地所登记的日志信息。在多集群资源租用模式下,节点控制信息并不能在集群间传递。比如,你在供给与消费两个集群上都关闭了同一个输出节点,这个节点的关闭日志信息是分别登记在两个本地的lsb.events文件中。


相关推荐:

网友留言:

您需要 登录账户 后才能发表评论

我要评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
验证码