Catalyst 6500/6000系列交换机的故障排除 [转]

2007年1月11日星期四

\n\t    介绍

    本文主要说明在混合模式(Supervisor Engine上运行CatOS,而多层交换机特性卡(MSFC)上则运行Cisco IOS)下运行的Catalyst 6000 / 6500系列交换机故障排除方面的常见问题。本文不讨论运行本地IOS的Catalyst 6000系列交换机的故障排除问题。文档的目的在于帮助Cisco客户识别和修复一些常见问题,并在联系Cisco技术援助中心(TAC)之前执行更全面的故障诊断和排除工作。采用有条不紊的收集信息、诊断和故障排除流程,可以确保解决问题所需的信息不会丢失。缩小问题的范围能够节约寻找解决方案的宝贵时间。

    要进一步了解有关MSFC或MSFC 2故障排除方面的信息,请参考Csico.com上的下述文档:

    重要提示

    建议您在开始阅读本文档之前仔细阅读Catalyst 5000产品的现场注意事项,以了解软件和硬件方面的相关问题。参见现场提示的下述清单:

    本文讨论Catalyst 6000 / 6500 系列交换机的“show”命令、问题症状以及故障诊断和排除流程。您应该了解基本的结构信息和Catalyst 6000 / 6500系列交换机的基本知识。参见下述文档:

    所使用组件本

    文不限于特定的软件和硬件版本。

    本文档中所使用的信息都基于特定实验室环境中的设备。文档中所用到的所有设备最初都使用原始(缺省)配置。如果您在正在运行的网络中进行操作,请确保您在使用任何命令之前都了解其潜在影响。

    诊断命令:显示版本、显示模块、显示端口、显示测试、显示日志、显示日志缓冲器、显示配置、显示 mac、显示计数器、显示系统、显示环境、显示错误检测、显示启动、dir (交换机)、dir (ROMmon)

Refer to the 请参阅“Catalyst 6000命令参考指南”了解有关“show”命令的更多信息。

    端口/连接问题

    Catalyst 交换机与NIC卡的兼容性问题

    如果您的交换机端口采用网络接口卡(NIC)连接到工作站/服务器,并且如果您发现诸如工作站/服务器运行减慢、间歇性的连接问题等网络症状,或者是同物理连接和数据链路错误相关的Catalyst交换机问题,请参阅下面的文档。本文档提供有关交换机端口和NIC卡之间的常见物理和数据链路层之间的故障排除信息,以及一些厂商的已知NIC问题及其解决方法方面信息。

    用“show port”命令在errDisable State状态下显示端口

    出于很多原因,端口可能出现errDisable.一些错误条件列举如下。

    当端口因故障而被禁用(errDisabled)时,它可以有效地关闭并且在那个端口上不发送或接收任何业务。端口LED被设置为橙色,如果您发出“show port”命令,则端口状态将显示为“errDisabled”。下面的例子说明了从交换机的命令行界面(CLI)所看到的“errDisabled”端口的状态:



Console> (enable) show port 11/1
Port  Name               Status     Vlan       Level  Duplex Speed Type
----- ------------------ ---------- ---------- ------ ------ ----- ------------
11/1                     errDisable 1          normal   auto  auto 10/100BaseTX


---- 输出抑制 ----



为了从“errDisabled”状态恢复,您必须发出命令“set port disable ”和“set port enable ”来先禁用再重新启用该端口。

“在CatOS平台上从errDisable 端口状态恢复”一节说明了导致端口进入errDisable状态的原因,并提供了避免出现这种状态的进一步故障排除步骤。 

工作站在启动期间不能登录入网络/不能获得DHCP地址 
    当客户机处于加电运行或者重启的时候,您可能会发现下面症状中的一种。问题可能是由于交换机所导致的初始连接延迟。

     交换机对不同的特性(如生成树协议(STP)、EtherChannel协商、中继协商或者链路速率/双工协商等)执行状态校验。交换机将端口置于“forwarding”模式将需要30-34秒的时间,而工作站可能无法登录或者无法通过DHCP获取IP地址。“使用Portfast和其它命令来修复工作站启动连接延迟”解释了如何缩短最初的连接延迟以及如何解决上面所提到的问题。 

1000BASE-T GBIC 无法识别或者工作 
    如果您有一个1000 BASE-T千兆位接口转换器(GBIC),但它没有被识别或者不能正常运行,请参阅下述文档来校验该软件是否支持GBIC: 

如果您运行的软件版本没有问题,但是链路仍然无法工作,请参阅专门针对电缆规范的下述文档:

交换机端口故障排除 
    网络端口无法工作或者只能部分工作的症状非常多,不过通常可以归为两大类:丢失网络连接(不能连接到服务器,无法ping通,等等)以及性能变慢(比正常状态慢、网络不能以最快速度运行,等等)。这些症状可能是物理层问题、错误配置、业务过载等问题导致。下面的文档解释了进一步缩小问题原因范围所需的不同交换机端口问题以及故障诊断和排除步骤:

Supervisor I上的IP MLS故障诊断和排除 
     如果您遇到不同VLAN内工作站间的连接问题,可能需要在基于Catalyst Supervisor I的系统上诊断和排除多层交换(MLS)特性的问题,以确保在硬件转发列表中包含正确的条目可用。参见下述文档:

如果在根据本文进行故障诊断和排除后仍然无法解决问题,则可以联系TAC获得进一步支持。

Supervisor II上单点发送IP路由选择Cisco快速转发的故障诊断和排除 
     如果您遇到不同VLAN内工作站之间的连接问题,可能需要在基于Catalyst Supervisor II的系统上诊断和排除Cisco快速转发特性的问题,以确保在硬件转发列表中包含正确的条目可用。参见下述文档:

如果在根据本文进行故障诊断和排除仍然无法解决问题,则可以联系TAC获得进一步支持。 

红/橙SYSTEM和STATUS LED的LED故障诊断和排除 
    这一节说明在Catalyst 6000 Supervisor引擎上的SYSTEM和STATUS LED显示红色或橙色的时候,如何进行故障诊断和排除。采用这些信息,您将了解导致“非绿”LED状态的条件,以及您可以用来校验和解决每一种状况的“show”命令。

格式:
LED
 颜色
 可能的原因
 
STATUS 
 红色
 诊断测试失败、出现温度过高的状况 
 
STATUS 
 橙色
 切换到 ROMmon 
 
SYSTEM 
 红色
 电压故障、同时出现温度和风扇故障、100 % 的电源故障(在双电源情况下两个电源均出现故障,单电源下这个电源出现故障) 、EEPROM 故障、SCM 通信失败、冗余时钟故障
 
SYSTEM 
 橙色
 温度告警、风扇故障或者部分电源故障(两个电源中的一个出现故障) 
 
STATUS LED - 红色 

当检测到下述条件中的一种时,Supervisor引擎上的STATUS LED将显示为红色:

条件1-诊断测试失败 
STATUS LED闪烁为橙色一次之后在诊断性启动测试期间一直保持橙色。当模块运行(在线)的时候变为绿色。该模块没有正常运行,因为在加电或者重启诊断测试期间检测到了故障。发出“show test”命令来查看诊断测试的结果。下面这个例子说明了插槽2中Supervisor引擎中的错误显示。
Console> show test 2 
Module 2 : 2-port 1000BaseX Supervisor 
Network Management Processor (NMP) Status: (. = Pass, F = Fail, U = Unknown) 
   ROM:  .   Flash-EEPROM: .   Ser-EEPROM: .   NVRAM: F   EOBC Comm: . 

Line Card Status for Module 2 : PASS 

Port Status : 
   Ports 1  2 
   ----------- 
         .  .

Line Card Diag Status for Module 2  (. = Pass, F = Fail, N = N/A)

Module 2 
   Cafe II Status : 
         NewLearnTest:             . 
         IndexLearnTest:           . 
         DontForwardTest:          . 
         DontLearnTest:            . 
         ConditionalLearnTest:     . 
         BadBpduTest:              . 
         TrapTest:                 . 
  Loopback Status [Reported by Module 2] : 
   Ports 1  2 
   ----------- 
         .  . 
Channel Status : 
   Ports 1  2 
   ----------- 
         .  .
Console>

    “show test”命令的输出报告NVRAM故障(NVRAM:F)。请参见“由于NVRAM失败而导致Supervisor故障,或者Show version命令显示Checksum故障”以了解诊断排除NVRAM故障的更详尽信息。如果其它组件或者测试也失败,则联系TAC进行进一步故障诊断和排除。

条件2-出现温度过高状态 
    当环境监控检测到温度过高状态的时候,它就会报告下述日志信息中的一种,并且,在启用的情况下,会显示简单网络管理协议(SNMP)重大告警。这些系统日志信息都同温度相关:

要了解更多信息及推荐的相应措施,请参见Catalyst 6000文档中的“消息和恢复流程”部分。 

SYSTEM LED - 红色 
    通常,SYSTEM LED变为绿色表示所有机柜的环境监控都处于OK状态。如果一个或者多个环境监控器报告故障,则SYSTEM LED就变为橙色或者红色。“ChassisMajorAlarm”就会变为“on”状态,对应于下述条件中的一种: 

条件1-电压故障 
    WS-C6K-VTT=电压终端(VTT)模块将在Catalyst交换总线上终接信号(请参见“Catalyst 6000系列VTT模块和时钟模块安装注意事项”以了解更多信息)。如果没有安装冗余Supervisor引擎,并且VTT模块处于轻微或者严重温度过高状态,则系统就会关机。在背板上有三个电压调节器(VTT)。如果一个VTT模块出现故障,则就会出现轻微告警。如果两个出现故障,则就会出现重大告警,正确措施就是关闭系统。

发出“show test”或者“show environment”命令来显示VTT的状态,如下所示。
Console> show test 
         
Environmental Status (. = Pass, F = Fail, U = Unknown,      N = Not Present) 
   PS1:.     PS2:N          PS1 Fan:.     PS2 Fan:N 
   Chassis-Ser-EEPROM:.          Fan:. 
   Clock(A/B):A              Clock A:.     Clock B:. 
   VTT1:.    VTT2:F         VTT3:.


下面的例子说明时钟模块A和VTT模块2发生故障。 
Console> show environment    
     Environmental Status (. = Pass,      F = Fail, U = Unknown, N = Not Present) 
            PS1:.     PS2:N          PS1 Fan:.     PS2 Fan:N 
            Chassis-Ser-EEPROM:.          Fan:. 
            Clock(A/B):B              Clock A:F     Clock B:. 
            VTT1:.    VTT2:F         VTT3:.


条件2-温度和风扇同时发生故障 
    发出“show system”命令来确认是否有有效温度告警产生,风扇是否出现故障。由于风扇出现故障,也就可能引发温度告警。在下面的输出中,“Temp-Alarm”和“Fan-Status”字段都是黑体。 
Console (enable) show system    
    PS1-Status PS2-Status 
    ---------- ---------- 
    ok         none    
Fan-Status Temp-Alarm Sys-Status Uptime      d,h:m:s Logout 
      ---------- ---------- ---------- -------------- ---------      
      ok       off             ok         14,08:03:03         20 min 
PS1-Type     PS2-Type      
      ------------ ------------ 
      WS-CAC-1300W none


条件3 - 100%的电源故障(在双电源情况下两个电源均出现故障,单电源下这个电源出现故障) 
    发出“show system”命令来确定您是否遇到了100%的电源故障。在下面的输出范例中,“PS1-Status”和“PS2-Status”字段都是黑体。在此输出中的系统只有一个电源,状态显示为“faulty”。电源可能需要更换。联系TAC以获得进一步的帮助。
cat6k> (enable) show system
PS1-Status PS2-Status
---------- ----------
faulty none

Fan-Status Temp-Alarm Sys-Status Uptime d,h:m:s Logout
---------- ---------- ---------- -------------- ---------
ok off faulty    409,16:15:08 20 min

PS1-Type PS2-Type
-------------------- --------------------
WS-CAC-1300W WS-CAC-1300W

Modem Baud Traffic  Peak Peak-Time
------- ----- ------- ---- -------------------------
disable 9600 0% 10% Fri Nov 22 2002, 15:24:46

条件4-EEPROM故障 
    发出“show test 1”命令来浏览闪存EEPROM和串行号EEPROM上的诊断测试状态。如果Supervisor不能够读取某个模块中的EEPROM,则该模块就被标记为“faulty(F)”,并且将不再出现。可能的情况是该模块没有正确固定。重新固定该模块来看问题是否能够解决。如果不能解决问题,则重新加电启动交换机。如果上述流程还不能够解决问题,则该模块可能需要更换。联系TAC获得进一步支持。 

下面的例子显示插槽1中Supervisor上的“Ser-EEPROM”出现故障。 
Console (enable) show test 1   
Diagnostic mode: minimal   (mode at next      reset: minimal) 
        
Module 1 : 2-port 1000BaseX Supervisor      
Network Management Processor (NMP) Status: (. = Pass,      F = Fail, U = Unknown) 
ROM:  .   Flash-EEPROM: .        Ser-EEPROM: F   NVRAM: .   EOBC Comm: .


条件5-SCP通信故障 
    SCP定义了用来在Supervisor CPU和MSFC以及其他线路卡之间通过Catalyst6500上的以太网带外信道(EOBC)进行信息交换所使用的协议。 

    如果这种通信过程中出现故障,您可能会在控制台或者系统日志中看到以下错误信息。下表提供了相关信息及推荐措施的简要描述。
 
消息:SYS-2-MOD_NOSCPRESPONSE: Module [dec] not responding over SCP 
解释:模块不能对带外通信信道上的Supervisor引擎请求作出响应。这种错误在带外信道非常繁忙的情况下可能发生。[dec]是没有响应的模块数目。
推荐的措施:如果问题仍然存在,将“show log”、“show tech-support”以及“show logging buffer -1023”命令的输出传给TAC以求获得进一步支持。
 
消息:SYS-2-MOD_SCPERROR2: Module [dec] local SCP error detected... resetting 
解释:这个消息说明用于同系统中其它模块进行带外通信的Supervisor 引擎串行信道存在故障。[dec]是出现故障的Supervisor引擎的数目。
推荐的措施:系统尝试通过复位出现故障的Supervisor引擎来实现恢复。如果问题仍然存在,将“show log”、“show tech-support”以及“show logging buffer -1023”命令的输出传给TAC以求获得进一步支持。
 
条件6-冗余时钟故障 

“Catalyst 6000系列 VTT模块和时钟模块安装注意事项”可以提供关于时钟模块(WS-C6K-CLK=)的更多信息。 

    在运行Catalyst软件的系统上,发出“show environment”命令。下面的例子说明了如何校验运行Catalyst软件的Catalyst 6000系列交换机上的VTT模块和时钟模块的状态。它显示时钟A出现故障,需要更换。 
 
Console> show environment 
     Environmental Status (. = Pass,    F = Fail, U = Unknown, N = Not Present) 
          PS1:.     PS2:N        PS1 Fan:.     PS2 Fan:N 
          Chassis-Ser-EEPROM:.        Fan:. 
          Clock(A/B):B            Clock A:F     Clock B:. 
          VTT1:.    VTT2:.       VTT3:. 
        Console> 


STATUS LED - 橙色 
    如果系统软件不能启动,STATUS LED一直处于橙色,而且交换机进入ROMmon模式。请参考“将Catalyst 4000、5000和6000系列交换机从软件被破坏或残缺、升级故障或者ROMmon模式下恢复”文档,以了解如何从ROMmon模式恢复交换机。 

SYSTEM LED - 橙色 
橙色的SYSTEM LED说明出现轻微机柜告警信息,原因可能是下述的一种: 

条件1-温度告警 
    发出“show system”命令来确定是否出现有效温度告警。在下面的范例输出中,“Temp-Alarm”域用 ...

0 comments

发表评论