- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
0
0 LOS LOS LOS LOS LOS XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 0 123 0 0 0
CRC CRC CRC CRC CRC Counter XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 Lane0 0 0 45 37 0 SLOT 4 : CellDrop (lane0..3) 0
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
6
造成fabric 通信 通信error 的几种情况 : 的几种 造成
CRC and LOS errors 从 Line cards 到 Fabric cards. CRC and LOS errors 从 Fabric cards 到 Line cards. FIA Halt( Tofab Request, Grant Parity and Overflow errors) CSC 时钟和同步问题 时钟和同 和同步问题 CRC and LOS errors 在control bus path 从CSC 到SFC cards.
交换矩阵通常碰到的问题主要集中在下面几类: 矩阵卡无法识别 矩阵CRC错和LOS错增长 FIA(Fabric Interface ASIC)HALT
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
4
矩阵卡无法识别 卡无法识别
CRC CRC CRC CRC CRC Counter XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 Lane0 0 414 32 0 0 Lane1 0 32 21 0 0 Lane2 0 34 21 0 0 Lane3 0 234 532 0 0
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
故障现象:使用“show controllers fia”命令看到矩阵卡不全。 SH-SH-HB-S-6.CN2#show controllers fia | b FIA From Fabric FIA Errors ----------------------redund overflow 0 cell parity 0 0x001F 18 sfc0 0 Off 0 0 Off 0 Slots 16 17 19 20 Slots 16 17 19 20 20 sfc1 0 Off sfc2 19 18槽不能识别 Switch cards present Slot: Name: los 0 16 csc0 0 Off 0 17 csc1 0 cell drops 0
引起矩阵CRC错和LOS错的原因通常有三种: •线卡(引擎)引起 •矩阵卡引起 •时钟卡引起 •机框引起;
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
7
对于此类问题的排查思路
矩阵CRC或LOS增长
empty dst req 0
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
5
处理方法:
1、对无法识别的矩阵卡进行拔插; 2、如果拔插不能解决,使用备件进行更换; 3、如果更换后依旧不能解决,更换机框。
思科服务FTS GSR CASE共享 CASE共享 思科服务FTS
2011年01月 Sunlei
Presentation_ID
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
1
Agenda
12000 FABRIC 案例分析和故障定位 12000 RP引擎 案例分析和故障定位
正常 更换槽位
ຫໍສະໝຸດ Baidu
正常
不正常
正常
逐块LC进行 shutdown
板卡返修
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
8
线卡或者引擎引起的CRC错和LOS错
故障现象: May 13 20:39:46.442: %FABRIC-3-ERR_HANDLE: Reconfigure LC on fabric due to CRC error from slot 0 May 13 20:42:46.174: %FABRIC-3-ERR_HANDLE: Reconfigure LC on fabric due to CRC error from slot 2 May 13 20:45:47.694: %FABRIC-3-ERR_HANDLE: Reconfigure LC on fabric due to CRC error from slot 4 May 13 20:48:52.949: %FABRIC-3-ERR_HANDLE: Reconfigure LC on fabric due to CRC error from slot 2 May 13 20:51:52.938: %FABRIC-3-ERR_HANDLE: Reconfigure LC on fabric due to CRC error from slot 0
收集show tech 和show log信息 收集show controller errors和show controller errors fabric counters三 次 插拔该板卡以便排除板卡接触不良的情况; 把该板卡插到其它确认能够正常工作的槽位,以便确定是板卡故障还是槽 位故障
在某些情况下,show controller errors fabric counter可能会看到多块LC出现CRC和LOS错,但从show controller errors里却看不到任何错误,这也有可能是某块LC引起。
指向同一块矩 阵卡 show control err fa counter 多块LC增长 检查DAT_LOS和 DAT-CRC 不正常
参考2.2.2
参考2.2.1
某块LC或RP增长 正常
正常 观察 拔插该板卡 /RPqiehuan Show control clock 不正常 参考2.2.3
不正常
机框返修
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
2
Fabric Troubleshooting
GSR 的分布式系统: 的分布式系统
Line Card FIA (Fabric Interface Asic) Clock scheduler(CSC) and Switch Fabric(SFC) cards Route Processor FIA (Fabric Interface Asic)
如果板卡状态异常的话应当先排除板卡的故障以后再用该命令检查板卡和矩阵的 连接状态 查看板卡状态的命令为“show led”或“show diag”
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
10
涉及排错命令和方法: 及排错命令和方法
Switch cards monitored 0x001F
-------- -------- -------- -------- -------state Off crc16 0
To Fabric FIA Errors ----------------------sca not pres 0 grant parity 0 cntrl parity 0 multi fifo 0 cell parity 0 正常情况下对于12x16 和12008 Slots 16 17 18 19 20 都应该存在,对于12404 Slots 0 1 2 3都应该存在,对于12410 slots 18 19 20 21 22都应该存在。 req error multi req uni req 0 handshake error 0 0 0 uni fifo overflow 0 uni fifo undrflow 0
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
11
问题: 矩阵卡引起的CRC和LOS问题 卡引起的 和 问题
故障现 故障现象:
SLOT 0:May 26 00:17:40.911: %FIA-3-LOS: LOS for slot 17 was detected. SLOT 2:May 26 00:17:40.911: %FIA-3-LOS: LOS for slot 17 was detected. SLOT 4:May 26 00:17:40.911: %FIA-3-LOS: LOS for slot 17 was detected SLOT 9:May 26 00:17:40.911: %FIA-3-LOS: LOS for slot 17 was detected
LC To Fabric Path (CRC/LOS errors)
LC
Fabric To LC Path (CRC/LOS errors)
SFC (4+1) XBAR
Control Path between LC and CSC (FIA Halt/Request/Grant Parity/Overflow errors)
Cisco Public
9
如果只有某一块板卡出现CRC/LOS错,有可能是这块板卡FrFab方向出现问题。 拔插一下该板卡,如果故障依旧,更换槽位进行测试。 如果我们看到多块板卡出现CRC/LOS 错,这通常是某块板卡ToFab的方向出现问题 导致其它块板卡FrFab的方向出现CRC和LOS错。 可以使用“Show controller errors”命令检查线卡(引擎)的DAT_LOS和DAT_CRC 的状态,如果有某块板卡不正常,问题有可能是这块板卡引起的,如: SCA192 SCA192 SCA192 SCA192 SLOT0 SLOT2 SLOT4 SLOT9 OK OK 11 OK OK OK OK OK OK OK OK OK OK OK OK OK XBAR192 OK OK 11010 OK LC_ENA BP_FRC LC_TYP DE_GNT DAT_LOS
Control Path from CSC to SFC (Parity, CRC/LOS errors)
Primary CSC
Primary Clock 3
BRKRST-3465_c2
© 2009 Cisco Systems, Inc. All rights reserved.
Cisco Public
SLOT 0 : CellDrop (lane0..3) 0
0
0
0 LOS LOS LOS LOS LOS XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 0 245 0 0 0 0 340 0 0 0 0 20 0 0 0 0 120 0 0 0
CRC CRC CRC CRC CRC Counter XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 Lane0 0 23 0 435 0 Lane1 0 234 0 32 0 Lane2 0 53 0 235 0 Lane3 0 63 0 25 0 SLOT 2 : CellDrop (lane0..0) 0
“show controller errors fabric counters”里面看到一块或多块板卡有 CRC或LOS错,并且这些错误出现不同的 矩阵卡上
0
0
0 LOS LOS LOS LOS LOS XBAR0 XBAR1 XBAR2 XBAR3 XBAR4 0 40 0 0 0 0 140 0 0 0 0 230 0 0 0 0 20 0 0 0