kts显示888kts是什么单位意思

点击联系发帖人 时间：2014-05-17 06:22

kts是什么单位

1796人阅读
故障的定义根据以下这些方面来考虑故障定位：弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置故障信息的收集收集故障信息对于判断诊断故障原因修复系统非常重要系统故障记录(errorlog)errdemonerrdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more (列出简短出错信息)ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071
T 0 errdemon Error logging turned off0E017ED1
P H mem2 Memory failure9DBCFDEE
T 0 errdemon Error logging turned on038F000 U H scdisk0 UNDETERMINED ERRORAA8AB241
T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H (列出所有硬件出错信息)#errpt -d S (列出所有软件出错信息)#errpt -aj ERROR_ID (列出详细出错信息)# errpt -aj
&--- ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: &--- Virtal Product DataDevice Driver Level00Diagnostic Level00Displayable MessageSCSIEC LevelC25928FRU Number30F8834ManufacturerIBM97FPart Number59F4566Serial NumberROS Level and ID24Read/Write Register Ptr0120DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA00 00 00 00操作面板上的LED 代码8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码4 位代码通常是Exxx3 位代码通常为0yyy 只看后3位8 位和4位代码可查看系统服务手册(Service Guide)3 位代码可查看IBM网站《RS/6000液晶显示屏上显示代码(LED)的含义》（http://www-/cn/support/viewdoc/detail?DocId=0）闪动的888，系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump，请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或105硬件故障一般有SRN 代码及位置代码SMS (System Management Service) 故障记录如何进入SMS 菜单当主控台出现键盘图标后(LED 显示E1F1时)按1键选择&Utilities&选择&Error Log&，抄下8位故障代码在SMS 中还可以更改系统启动顺序表MAIL#mail系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查修复系统会定时提醒root运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断当发现有硬件故障时应立即使用diag#diag& 选高级诊断Advance Diagnostic)& 选问题诊断Problem Determination) 或选系统检查System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2，0 45 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1，0 45 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4，0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 af3d76 rootvghdisk1 1294 rootvghdisk2 c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs:
megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs:
megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 77102e01& devices.pci.77102e01.diag& 5.2.0.0&&& C&&&& F&&& 1000 Base-TX PCI-X iSCSI TOE& devices.pci.77102e01.rte&& 5.2.0.0&&& C&&&& F&&& PCI-X 1000 Base-TX iSCSI TOE看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2alt_addr&&&&&&& 0x&& Alternate Ethernet Address&&&&&&& Truebusintr&&&&&&&& 101&&&&&&&&&&&&& Bus interrupt level&&&&&&&&&&&&&& Falsebusmem&&&&&&&&& 0xe4030000&&&&&& Bus memory address&&&&&&&&&&&&&&& Falsechksum_offload& yes&&&&&&&&&&&&& Enable RX Checksum Offload&&&&&&& Trueintr_priority&& 3&&&&&&&&&&&&&&& Interrupt priority&&&&&&&&&&&&&&& Falseipsec_offload&& no&&&&&&&&&&&&&& IPsec Offload&&&&&&&&&&&&&&&&&&&& Truelarge_send&&&&& no&&&&&&&&&&&&&& Enable TCP Large Send Offload&&&& Truemedia_speed&&&& Auto_Negotiation Media Speed&&&&&&&&&&&&&&&&&&&&&& Truepoll_link&&&&&& no&&&&&&&&&&&&&& Enable Link Polling&&&&&&&&&&&&&& Truepoll_link_timer 500&&&&&&&&&&&&& Time interval for Link Polling&&& Truerom_mem&&&&&&&& 0xe4000000&&&&&& ROM memory address&&&&&&&&&&&&&&& Falserx_hog&&&&&&&&& 1000&&&&&&&&&&&& RX Descriptors per RX Interrupt&& Truerxbuf_pool_sz&& 1024&&&&&&&&&&&& Receive Buffer Pool Size&&&&&&&&& Truerxdesc_que_sz&& 512&&&&&&&&&&&&& RX Descriptor Queue Size&&&&&&&&& Trueslih_hog&&&&&&& 10&&&&&&&&&&&&&& Interrupt Events per Interrupt&&& Truetx_preload&&&&& 1520&&&&&&&&&&&& TX Preload Value&&&&&&&&&&&&&&&&& Truetx_que_sz&&&&&& 8192&&&&&&&&&&&& Software TX Queue Size&&&&&&&&&&& Truetxdesc_que_sz&& 512&&&&&&&&&&&&& TX Descriptor Queue Size&&&&&&&&& Trueuse_alt_addr&&& no&&&&&&&&&&&&&& Enable Alternate Ethernet Address Truelscfg 查看VPD信息Virtual Product Data# lscfg -vl ssa1ssa0&&&&&&&&&&&& U0.1-P2-I2/Q1& IBM SSA 160 SerialRAID Adapter ()&&&&&&& Part Number................. 27H1204&&&&&&& FRU Number.................. 34L5388 &-- 备件号&&&&&&& Serial Number...............S4143093&&&&&&& EC Level....................&&& E28793&&&&&&& Manufacturer................IBM053&&&&&&& ROS Level and ID............C400&&& 0000&& &&-- 微码版本&&&&&&& Loadable Microcode Level....05&&&&&&& Device Driver Level.........00&&&&&&& Displayable Message.........SSA-ADAPTER &&&&&&& Device Specific.(Z0)........SDRAM=128 &&&&&&& Device Specific.(Z1)........CACHE=32&&&&&&& Device Specific.(Z2)........UID=00B006EB000018CA&&&&&&& Device Specific.(YL)........U0.1-P2-I2/Q1&& &&-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号硬件故障定位方法IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息Error Code 和SRNsCheckpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在I/O柜的显示面板上一系列信息IPL 流程当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤Phase 1: Service Processor 的初始化Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止在这个步骤会显示8xxx 或9xxx checkpoints代码Phase2:由ServiceProcessor引导的硬件初始化Phase2开始于按下I/O柜上的白色电源开关在这个步骤会显示9xxxcheckpoints91FF是最后的代码标志着第三步骤的开始Phase3:系统固件的初始化在Phase3，一个系统处理器接管控制并继续初始化系统资源在这个步骤会显示ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码位置码代表着系统的每一个部分Phase4:AIX启动当AIX开始启动时显示面板上的代码为0xxx同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束，同时显示面板上再无任何信息出现。ErrorCode：当系统运行有错误发现时一个8位码会显示在显示面板上，同时在第二行显示相对应问题硬件的位置码。SRNs（Servicerequestnumbers）服务请求码：当系统运行有错误发现时SRNs码会以xxx-xxx的形式显示在显示面板上同时在AIX的errorlog中也会有记载。以上所有代码都会有相应的步骤解决。系统的启动顺序:系统不能启动系统停在Stage1可能为电源系统板CPU内存等硬件故障记录故障代码系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确，则可能是硬盘故障；若根本没有SCSI设备可选，则链路有问题。系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障系统停在7发生在系统启动的第三阶段(Stage3)可能是文件系统损坏文件系统日志(jfslog)损坏rootvg中有坏硬盘修复方法用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致启动后选择选项3&Start Maintenance Mode for System Recovery&&&Access a Root Volume Group&&&Access this volume group and start a shell before mounting the filesystems&格式化文件系统日志(jfslog)#/usr/sbin/logform /dev/hd8检查修复文件系统#fsck –y /dev/hd1&& &（/&& &home文件系统）#fsck –y /dev/hd2&& &（/&& &usr文件系统）#fsck –y /dev/hd3&& &（/&& &tmp文件系统）#fsck –y /dev/hd4&& &（/文件系统）#fsck –y /dev/hd9var&& &（var文件系统）用exit命令退出文件系统会自动mount起来重建bootimage#lslv –m hd5找出bootimage所在的硬盘如hdisk0#bosboot –ad /dev/hdisk0#bootlist –m normal/dev/hdisk0重建启动顺序表重启动系统#shutdown -Fr如上述步骤不奏效用系统备份带恢复系统如备份带不能恢复用诊断光盘Diagnostic CDROM检查是否坏硬盘CDE图形界面挂死CDE运行时不要更改网络参数如主机名和IP地址。更改网卡设置请先退出CDE图形环境，选择命令行方式登录，在字符界面下更改。如CDE已经挂死，用以下方式更改：远程telnet登录找出所有dt有关的进程用kill命令杀掉#ps -ef|grep dt#kill PID更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系#smitty tcpip重新启动CDE界面#/etc/rcdtHACMP环境下可把主机名alias到127.0.0.1上#cat /etc/hosts系统dump定义发生在系统崩溃时AIX会做dump(系统内存的快照)。现象此时机器会显示闪动的888102xxx0cx代码0c9系统dump进行中0c9状态可能会维持超过2分钟不要关电和按reset，等待dump做完0c0dump成功完成这时可以断电重起说明0c2手动启动dump功能0c4dump设备空间不足只有部分信息保存下来0c5不明原因导致dump失败一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件。不要选择退出，否则会丢失重要的故障信息。dump的有关设置估算系统dump的大小在系统最繁忙时内存使用最多#sysdumpdev -e Estimated dump size in bytes: #lsps -aPage Space&&&&& Physical Volume&& Volume Group&&& Size %Used Active& Auto& Typehd6&&&&&&&&&&&& hdisk0&&&&&&&&&&& rootvg&&&&&&&& 512MB&&&& 1&&&& yes&& yes&&& lv当前的设置#sysdumpdev -lprimary /dev/hd6&--dump的主设备secondary /dev/sysdumpnullcopydirectory /var/adm/ras&--dump拷贝的目录forced copy flag TRUEalways allow dump TRUEhd6应比估算值稍大/var/adm/ras是默认的dump拷贝目录。比较估算值，保证/var文件系统有足够的剩余空间拷贝dump文件。否则机器重起时，会提示用户插入磁带。dump文件名为vmcore。对PCI机型如要手动做dump须把&alwaysallowdump&先设成true#sysdumpdev -Kdump打包#snap –a -o/dev/rmt#或#snap –a -c把/tmp/ibmsupt目录做成一个压缩文件snap.tar.Z。如果/tmp文件系统空间不够，可用-d directory参数指定别的目录代替/tmp/ibmsupt。7133-D40 SSA磁盘柜的故障定位当SSA磁盘柜出现故障时，在磁盘柜前面板的液晶显示屏上会显示相应的SRNs，同时，黄色的显示灯会闪动。在AIX的errorlog中也会有记载错误信息，如DISK_ERR1，DISK_ERR4，SSA_ARRAY_ERROR等。软件故障定位方法软件故障情况错综复杂。下面列举几个常见案例的故障处理方法。文件系统空间不够满可导致系统不能正常工作。尤其是AIX的基本文件系统如/(根文件系统)满则会导致用户不能登录。查看有没有满的文件系统。特别是/var和/tmp不要超过90%文件系统。用df -k查看#df -k(查看AIX的基本文件系统)Filesystem&&& 1024-blocks&&&&& Free %Used&&& Iused %Iused Mounted on/dev/hd4&&&&&&&&&&& 65536&&&& 32140&& 51%&&&& 2151&&& 23% //dev/hd2&&&&&&&&& 1245184&&&& 58260&& 96%&&& 27481&&& 65% /usr/dev/hd9var&&&&&&& 131072&&& 100084&& 24%&&&&& 540&&&& 3% /var/dev/hd3&&&&&&&&&&& 65536&&&& 60952&&& 7%&&&&&& 70&&&& 1% /tmp/dev/hd1&&&&&&&&&&& 65536&&&& 65180&&& 1%&&&&&&& 5&&&& 1% /home/proc&&&&&&&&&&&&&&&&&& -&&&&&&&& -&&& -&&&&&&&& -&&&& -& /proc/dev/hd10opt&&&&&& 131072&&&& 54308&& 59%&&&& 1253&&& 10% /opt/dev/lv00&&&&&&&& 6291456&& 6093916&&& 4%&&&&&& 21&&&& 1% /opt/oracle除/usr文件系统，其他文件系统都不应太满一般不超过80%。处理方法1、删除垃圾文件#du –sk *|sort -rn|head查找出当前目录下，占空间最大的子目录。逐层往下，直到找出占空间最大的文件。要区分哪些目录是文件系统的mountpoint，哪些是文件系统的子目录。删除文件释放空间：有时删除文件后，空间并不马上释放。这是由于你删除的文件正被某个程序打开，只有当这个程序停止后，空间才释放。有时甚至需要重起系统。2、增加文件系统大小#smitty chjfs文件系统可以在任何时候加大，前提是卷组(VG)中有剩余空间。检查文件系统的完整性#umount filesystem_name#fsck –y filesystem_name注意文件系统必须先umount，再做检查和修复否则可导致未知的后果。查看卷组信息(lsvg –l vg_name)有没有&stale&状态的逻辑卷若有用syncvg命令修复&stale&逻辑卷检查内存交换区(paging space)使用率(lsps -s)使用率是否超过70%。若有则用chps -s X pgname增加X个PP或用mkps –a -n-sX myvg在myvg上增加一个PP数为X的内存交换区。小型机内存泄漏问题小型机出现内存泄漏，即系统或应用进程无法将使用过的内存释放，使可用内存的容量逐渐减少。如果可用内存降到某最小值，将造成系统或应用程序无法FORK子进程，就会造成系统瘫痪。通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况，以及各进程的内存和CPU占用率的发展趋势。1、 ps#ps gv|head -n1;ps gv|egrep –v &RSS&|sort +6b -7 –n -r|head -n5PID&&& TTY STAT& TIME PGIN& SIZE&& RSS&& LIM& TSIZ&& TRS %CPU %MEM COMMAND&368880&&&&& - A&&&& 0:00& 250& &&& xx& 1508&& 688& 0.0& 1.0 /usr/sbi&446688&&&&& - A&&&& 0:00& 118& &&& xx&& 783&& 472& 0.0& 1.0 /usr/sbi&393412&&&&& - A&&&& 0:00& 457& &&& xx&& 489&& 544& 0.0& 0.0 /usr/sbi&442586&&&&& - A&&&& 0:00& 143& &&& xx&& 819&& 344& 0.0& 0.0 /usr/sbi&377028&&&&& - A&&&& 0:00& 137& &&& xx&& 198&& 208& 0.0& 0.0 /usr/sbiSIZE virtual size(in the paging space)，in kilobytes，RSS real-memory (resident set) size in kilobytes of the process通过不同时间输出的比较，就能观察出内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程，这个进程可能就已经发生了内存泄漏。2、sar指令也可以查看CPU占用率，但统计的结果不是很准确。通常使用sar令的格式为：#sar –P ALL 2 10AIX P650a 2 5 005D3C1D4C00&&& 04/10/06System Configuration: lcpu=4 23:10:27 cpu&&& %usr&&& %sys&&& %wio&& %idle23:10:29& 0&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 1&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 2&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 3&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& -&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 10023:10:31& 0&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 1&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 2&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& 3&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100&&&&&&&&& -&&&&&&& 0&&&&&& 0&&&&&& 0&&&& 100表示2秒钟输出一次结果总共有10次结果然后平均目前如果发现内存泄漏最好重新启动系统.常用的系统状态查询命令#lsdev –Csscsi列出各个SCSI设备的所有相关信息，如逻辑单元号硬件地址及设备文件名等。#ps -ef列出正在运行的所有进程的各种信息.如进程号及进程名等。#netstat -rn列出网卡状态及路由信息等。#netstat -in列出网卡状态及网络配置信息。#df -k列出已加载的逻辑卷及其大小信息。#mount列出已加载的逻辑卷及其加载位置#uname -a列出系统ID号系统名称OS版本等信息。#hostname列出系统网络名称。#lsvg –l rootvg， lsvg –p rootvg显示逻辑卷组信息，如包含哪些物理盘及逻辑卷等。#lslv -l datalv，lslv -p datalv显示逻辑卷各种信息，如包含哪些盘是否有镜像等。网络故障定位方法网络不通的诊断过程ifconfig查看网卡是否启动(up)netstat －i查看网卡状态（Ierrs/Ipkts和Oerrs/Opkts是否&1%）ping自己网卡地址(ip地址)ping其它机器地址（如不通在其机器上用diag检测网卡是否有问题）在同一网中subnet mask应一致网络配置的基本方法1、修改主机名或网络地址可用chdev命令或smit 命令修改主机名：#smit hostname#chdev -l inet0 -a hostname=myhost修改网络地址：#smit mktcpip（修改成功后，需要把/etc/hosts文件里原来的IP地址手工删除）#chdev -l en0 -a netaddr=192.168.1.100 -a netmask=255.255.255.02、查看网卡状态#lsdev －Cc if3、确认网络地址#ifconfig en04、启动网卡#ifconfig en0 up5、停止网卡#ifconfig en0 down6、配置路由有两种方式加入路由永久路由# chdev -l inet0 -a route=192.168.9.6,192.168.8.1临时路由#route add IP1 IP2（IP1：目的参数 IP2：网关参数）用命令netstat -rn查看路由表HACMP环境下的排错在一般情况下，HACMP软件很少需要手工干预。但一旦有问题发生，诊断和恢复的技巧是很重要的。需要能很快地断定问题，然后运用你对HACMP的理解来恢复HACMP的正常运作。一般地，HACMP环境下的排错包括:了解问题的存在，判断问题的出处，解决问题。了解问题的存在您可以通过以下途径了解到一个CLUSTER环境下出现了问题：最终用户的投诉，他们无法访问应用程序控制台上出现一些HACMP的信息应用服务无法访问1、最终用户的抱怨通常预示CLUSTER出现了问题。他们无法正常执行应用或是无法登录到系统。我们必须采集到详细的信息，以判断到底那里；出现了问题是否有错误的信息提示。如果可能的话，让用户重复步骤，以确定那里是错误的。开始您也可以在自己的系统上重复。要知道用户应用不可用并不代表HACMP有问题，问题可能出现在应用程序本身，或是它的启动或终止脚本出现了问题。因此应用程序本身的排错也应是HA排错的一部分。2、控制台上出现一些HACMP的信息在HACMP启动，终止或出错时，控制台上会出现一些HACMP的信息，同时也会写入相应的文件中。判断问题的出处当错误出现时，我们应尝试发现错误的所在但我们常常被错误的表面所误导以下的步骤可以使我们得到更详细的信息1、保存好一些LOG文件(/tmp/hacmp.out&/tmp/cm.log)因为它们可能被覆盖；2、仔细检查HACMP所产生的LOG文件。它们能提供最初的判断线索；3、用HACMP的工具和AIX的命令来检查HACMP的部件是否正常。4、打开HACMP的跟踪工具来产生更详细的信息。HACMP的LOG文件:以下文件都是文本文件，可以用VI来看每个日志文件都含有每个信息的产生时间。/usr/adm/cluster.log:记录了HACMP的状态，由HA的守护进程所产生/tmp/hacmp.out:记录了HA的详细脚本/usr/sbin/cluster/history/cluster.mmdd:记录了HA的各个事件的发生/tmp/cm.log:由clstrmgr进程产生，每次HA重起时会被覆盖。HACMP FOR AIX的结构：应用层HACMP软件层LVM&TCPIP层AIX层物理网络层物理硬盘层硬件层在物理网络层，物理硬盘层，硬件层，LVM&TCPIP层，AIX层：我们可以用AIX系统命令来看是否硬件和系统出现了问题。一般地，用errpt命令来看没有类型为PH的错误，lsvg -o来看我们所须的VG已varyon，mount来看我们所须的文件系统已安装，netstat -i来看我们所须的serviceIP是UP的状态(或用ifconfig en*)，cluster node之间的service与serviceIP，standby与standby IP互相可以ping通。在各个节点上执行stty&&/dev/tty*有相应的信息出现说明硬件层，LVM&TCPIP层，AIX层没有问题，问题可能出现在应用层与HACMP软件层上，否则问题就出现在相应的层次上。在HACMP软件层上，我们可以用vi/tmp/hacmp.out来看，如果出现event failed的字段，则有可能问题出现在该层，如果在问题出现的时段，hacmp.out无信息出现，则问题可能出现在应用层。以下是HA排错的一些守则:在第一时间保存好相关的日志文件，特别是那些会被覆盖的文件；尝试去重复问题的出现不要被用户所反映的问题迷惑；渐进地去重复问题，如果有多个可能导致问题的出现，一个一个地去重复，而不要一次重复多个可能；不要凭经验来判断问题，而是要在各种测试后，由结果来判断；隔离问题的来源，根据我们上面所叙述的层次关系，至顶向下地诊断；由简到繁地做测试，我们先从一个简单的环境来做测试，不要尝试在一个复杂的环境中测试一次做一次改动，否则我们无法知道是那个改动解决了问题；不要忽略各种可能，因小可失大，留心系统的每一个细节，包括电源，插头，连线等；保持各种测试的记录以及解决的步骤，用做将来排错的参考；拨打IBM服务热线，将问题现象和您所做的测试结果告诉IBM的工程师，他们将在CALLCENTER的测试中心重复试验，必要时会派工程师到场解决问题。附常用命令列表cfgmgr&& &自动配置设备chps –s XX hdXXcrontab –l 列出当前用户的crontab配置diag –a&& &更新硬件配置的变动diag –cd rmtX&& &测试磁带机errpt&& &显示错误的日志标题errpt –a&& &显示错误的详细信息errpt –s MMddhhmmyy && &显示比指定时间晚的日志信息errpt –aj XXXXXXXX&& &&& &根据ID号显示详细日志errpt –d S&& &显示软件错误日志errclear 0&& &清空日志信息hostname&& &显示主机名ls&& &列出当前目录的文件和目录ls –al&& &列出当前目录的文件和目录的详细信息lsattr –El XXX&& &显示设备的属性lsdev –Cs scsi&& &列出scsi设备lsdev –Cctape 列出磁带机设备lsdev –Cspci&& &列出PCI设备lsdev –Cs isa&& &列出isa设备lscons&& &列出分配的consolelscfg&& &列出系统硬件设备lscfg –vl XX&& &列出指定设备的配置信息lsfs&& &列出所有的文件系统信息（与df –k列出的文件系统名相同）lslpp&& &列出软件产品lslv –m hd5&& &列出启动驱动盘lsps –a&& &列出可用的换页空间lsps –s&& &列出可用的换页空间lspv&& &列出物理卷lspv hdiskX&& &&& &列出物理卷的信息lspv –l hdiskX&& &列出hdiskX对应磁盘里的逻辑卷信息lsuser –f ALL 列出所有用户的所有属性lsvg&& &列出卷组lsvg –p&& &列出卷组中对应的磁盘pdisable&& &使不可用或显示所有不可用的ttypdisable ttyX&& &使ttyX不可用penable&& &使可用或显示所有可用的ttypenable ttyX&& &使ttyX可用tar –cvf /dev/rmt0 /etc&& &拷贝/etc到磁带tar –cvf /dev/rmt0&& &查看磁带内容uptime&& &显示系统启动了多长时间，以及当前系统用户的登录数who&& &显示系统的当前用户fsck XXXX&& &检查文件系统的错误
版权声明：本文为博主原创文章，未经博主允许不得转载。
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：912117次
积分：13886
积分：13886
排名：第345名
原创：449篇
转载：19篇
评论：174条
(2)(7)(1)(6)(3)(4)(6)(5)(4)(5)(1)(2)(3)(4)(4)(4)(3)(4)(1)(6)(5)(2)(4)(3)(12)(6)(1)(2)(5)(5)(2)(8)(22)(6)(1)(4)(5)(1)(3)(3)(3)(2)(2)(2)(2)(7)(1)(2)(16)(6)(3)(11)(8)(4)(2)(2)(4)(4)(3)(3)(10)(9)(1)(5)(5)(1)(5)(4)(5)(2)(23)(1)(2)(2)(2)(1)(7)(1)(7)(11)(5)(2)(8)(8)(3)(5)(3)(2)(6)(11)(23)(10)(5)(2)(1)(21)(3)}

米需爱网