关于DMS timeout及SRC halt a node
从HACMP System Administration I: Planning and Implementation
10-20 Clstrmgr starved of CPU
(某种应用程序的优先级大于 clstrmgr deamon , 导致 clstrmgr 无法正常重置 DMS 计数器)
10-26 SRC halts a node
Under what circumstances does the SRC halt a node
– The cluster manager was killed or has crashed
Proving that SRC halted a node:
– Check the AIX error log
- Look for abnormal termination of clstrmgr daemon
想问的是,如果clstrmgr 被killed了或hang了,那么也不会去重置DMS计数器,那么是SRC来halt node呢,还是 DMS来halt node?
作者: hbsbjerry 发布时间: 2011-05-16
从当时的error log中看到kernel_panic,之前在哪个官方文档上看到(不记得了)DMS timeout会有kernel_panic的记录。这里看到有提到“SOFTWARE PROGRAM ABNORMALLY TERMINATED”,不知道是不是指的是clstrmgrES;所有很有些confused,这次halt到底是 clstrmgrES被killed掉了导致 SRC halt呢,还是DMS timeout而导致halt呢
LABEL: KERNEL_PANIC
IDENTIFIER: 225E3B63
Date/Time: Sun Feb 27 10:17:01 2011
Sequence Number: xxxxxx
Machine Id: 00xxxxxxxx00
Node Id: node_a
Class: S
Type: TEMP
WPAR: Global
Resource Name: PANIC
Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
ASSERT STRING
PANIC STRING
RSCT Dead Man Switch Timeout for HACMP; halting non-responsive node
想问的是,如果clstrmgr 被killed了或hang了,那么也不会去重置DMS计数器,那么是SRC来halt node呢,还是 DMS来halt node?
这个问题提问的背景源于一次生产系统停机——应用跑在节点B上,节点B因硬件故障宕机,节点A因disk reserve的原因没有接管成功;等系统管理员查看的时候,发现节点A上的clstrmgrES处于ST_INIT状态。对于节点A上PowerHA服务停止的原因,IBM level2给的解释,说因为defects(IZ75959, IZ77347),fuser killed hacmp daemons by mistake 从而导致了 DMS timeout从而halt该node(HA的stop.sh脚本中有 fuser脚本,但是和HA所在路径没有关系)
可是我读了info center,如果因为kill了clstrmgr,则会在errpt中记录有clexit.rc : Unexpected termination of clstrmgrES,可我没有在errpt中找到类似的clstrmgrES异常terminate的信息;
因此考虑是否有其他原因导致了DMS timeout?或导致了这次节点halt
如果有达人愿帮助做深入分析,我可以提供snap日志包
作者: hbsbjerry 发布时间: 2011-05-16
达人们今天都去做神马鸟?~~~```
作者: hbsbjerry 发布时间: 2011-05-16