光模块故障怎么处理?详见三大类故障排查及解决方法
客户在使用光模块时或多或少会遇到各种各样的故障问题,像光模块型号选用是否正确、使用的跳线是否正确等一些常见问题,客户是有判断能力且有明确的解决方法,但对于某些使用时出现的故障问题,如传输异常等,很多客户不知道该如何排查并解决。本文将重点教您如何排查并解决常见的三大类光模块故障问题。
一、传输类的光模块故障排查及解决方法
该类光模块故障主要包含端口不UP、端口状态为UP但不接收或发送报文、端口频繁up或down以及CRC错误。具体光模块故障排查方式及解决方案如下:
1、端口不UP
以10G SFP+/XFP光模块为例,当光模块光口与其他设备互连不能UP时,可从以下五个方面进行排查:
第一步,检查两端端口的速率和双工模式是否匹配——执行“show interface brief”命令进行查看,若是不匹配,通过speed命令和duplex命令配置端口的速率和双工模式。
第二步,检查设备端口与光模块的速率、双工模式是否匹配——执行“show interface brief”命令进行查看,若是不匹配,通过speed命令和duplex命令配置端口的速率和双工模式。
第三步,检查两端端口是否正常——通过环回测试两端端口是否能UP。在单板上的10G SFP+端口上使用10G SFP+直连线缆(适用于短距离连接,或用SFP+光模块和光纤跳线)进行互连,10G XFP端口上使用XFP光模块和光纤来进行测试,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。
第四步,检查光模块是否正常——主要是检查DDM、光功率、波长、距离等参数是否正常,若是不正常,则通过更换与光接口匹配的光模块。
-
DDM信息——通过“show interfaces transceiver detail”命令检查参数是否正常,若出现告警,则表示该光模块有故障或该光模块与光接口类型不匹配。
-
光功率——使用光功率计测试端口收发光功率是否在正常范围内及稳定。
-
波长/距离——通过“show transceiver interface”命令检查两端光模块波长、距离等是否一致。
第五步,检查光纤是否正常——如,单模SFP+光模块搭配单模光纤,多模SFP+光模块搭配多模光纤,若是不匹配立即更换与之相匹配的光纤即可。
若是按照上述步骤仍未找到光模块故障原因或解决光模块故障问题,建议您直接联系供应商的技术人员寻求技术帮助。
2、端口状态为UP,但不接收或发送报文
当端口状态为up,却不能接收或发送报文时,从以下三个方面进行故障排查:
第一步,查看端口报文统计结果。检查两端端口状态是否一直UP,并且检测两端的报文统计是否增长。
第二步,检查端口配置是否影响报文的接收。首先检查是否做过网络配置,核查配置是否正确,必要时全部删掉再测试看问题是否解决;其次检查端口MTU值是否为1500,若是大于1500,则需修改配置。
第三步,检查端口及链路截止是否正常。更换连接端口,将其连接到其他端口查看是否存在相同现象,若是仍然故障,则替换光模块。
若是按照上述步骤排查后,光模块故障问题仍未得到解决,则建议您直接联系供应商的技术人员。
3、端口频繁up或down
当光模块的光端口频繁up或down时,先确认光模块是否异常,可通过查看光模块alarm信息来排查两端光模块及连接光纤问题;对于支持数字诊断功能的光模块可通过查看DDM信息确认光模块的光功率是否处于临界值,若是发射光功率处于临界值,则更换光纤、光模块作为交叉验证,若是接收光功率处于临界值,则排查对端光模块及连接光纤。当电口光模块出现该情况,尝试设置速率双工。
若是排查完链路、对端设备以及中间设备后,光模块故障仍然存在,则建议您直接联系供应商的技术人员。
4、CRC错误
第一步,先查看报文统计信息判断故障问题。通过“show interface”命令,查看端口出入方向的错包统计确定体积是哪项增长,从而判断故障问题。
-
端口入方向出现CEC、frame、throttles错包且计数持续增加——使用仪器测试链路是否故障,若是故障则更换网线或光纤;或者更换网线或光纤光模块与其他端口连接,若是端口更换后错包又再次出现,则视为单板端口故障,若是更换到正常端口仍出现错包,则对端设备、中间传输链路故障的可能性较大,排查即可。
-
检查端口入方向是否出现overrun错包且计数持续增加——通过多次执行“show interface”命令查询input errors是否有增加,若有则代表着overruns增加,单板内部可能拥塞或堵死。
-
检查端口入方向是否出现giants错包且计数持续增加——检查两端Jumbo配置是否一直,如端口默认的最大报文长度是否一致,允许最大报文长度是否一致等。
第二步,检查光模块的光功率是否正常。通过“show transceiver interfaces detail”命令查看光口所插光模块的数字诊断参数的当前测量值。若是光模块的光功率不正常,则需更换光模块。
第三步,检查端口配置是否正常。通过“show interface brief”命令查看端口配置是否有异常,其中两端的协商状态双工模式和端口速率是否一致,若是存在半双工模式或速率不一致,则通过duplex命令和speed命令分别配置双工模式和端口速率。
第四步,检查端口及链路介质是否正常。更换连接端口查看是否存在相同现象,若是存在相同现象,则检查连接链路中中间设备以及传输介质是否正常,若是正常,则替换光模块。
第五步,检查端口是否收到大量流控帧。通过“show interface”命令,查看端口pauses帧计数,若是不断增长,则说明该端口发出或接收到了大量的流控帧。另外,检查端口出入流量是否过大以及对端设备的流量处理能力。
经过上述检查后,若是配置、对端以及链路都没有问题,但光模块故障问题仍然存在,那么请直接联系供应商的技术支持人员。
二、信息读取异常类的光模块故障排查及解决方法
1、显示不支持
当查看系统日志时发现存在上报非合法光模块信息,如unqualified、unapproved、unknown等,则先检查编码信息,若是编码出现差错,则重新编码,若是编码正确,可联系供应商的技术支持人员寻求帮助。
2、不支持DDM
当系统提示光模块不支持数字诊断(DDM)时,通过“show transceiver interfaces detail”命令查询使用的光模块是否支持数字诊断功能,或直接联系供应商咨询该光模块是否支持数字诊断功能。若该模块支持数字诊断功能,却没办法解决故障,直接联系供应商的技术支持人员寻求帮助。
3、DDM异常
当安装光模块的接口无法正常工作时,可根据以下三步骤进行故障排查:
第一步,检查光模块Alarm告警信息。若是告警信息中存在接收有问题,一般是对端端口、光纤或中转设备所导致的;若是存在发送问题或者电流、电压异常,则需排查本端端口。
第二步,检查光模块的接收、发送光功率是否正常。可通过“show interfaces transceiver detail”命令,查询光模块的接收/发送光功率是否正常,以及其他参数是否在阈值范围内;或者通过实时查询,检查光功率、温度、电压、偏直电流等参数是否正常。
第三步,检查是光模块本身故障还是相邻设备或中间连接链路故障。可更换端口、光模块等来进行交叉验证。
经过上述步骤,仍然无法确认或解决光模块故障,可联系供应商的技术支持人员需求技术帮助。
三、硬件类的光模块故障排查及解决方法
硬件类的光模块故障排查主要是从光模块自身出发。首先,需确保购买的光模块品质经过认证,若是没有认证,质量无法得到保障,建议不再使用该光模块;其次,检查光模块的金手指是否有损伤,若是有损伤则需替换光模块;最后,检查接口是否受到污染或损伤,若是接口有污染清洁即可,若是有损伤建议替换。
总结
为了大大减少光模块在使用中故障发生的概率,最好选用性能可靠稳定且品质有保障的光模块,与此同时,也要懂得正确专业的操作方式,如网线或光纤跳线和其他相关设备等。
相关文章推荐:
光模块安装使用的常见问题解答
判断光模块是否有问题,有几种方法?