【x86】异常告警提醒及排查

一、功能简介

当设备出现各类异常问题,且影响业务质量时会触发异常告警,可通过关注网心云公众号---绑定账号接收提醒

二、常见告警类型及排查方式

1、异常-设备离线

主要为设备离线超过10分钟引起
  • app在线状态更新会有延时,若触发提醒需检查管理口正常连接
  • 网口连通后,通过小黑屏回车ping,是否正常接通外网
  • 若排查都正常后,访问8080页面查看设备运行状态是正在运行中即可

2、异常-重传率高

主要为丢包或磁盘性能问题、网络限制等引起
  • 检查带宽是否存在丢包,建议控制在2%以内
  • 检查网线、光猫负载是否正常
  • 检查光衰是否在推荐范围,一般推荐是在【-18,-25】的区间
  • 前往8080控制台页面-设备信息,查看各磁盘IO是否正常,若磁盘异常则对应更换掉

3、异常-磁盘减少

主要是有掉盘,导致磁盘数或磁盘容量有变动,例如原磁盘有2T,现检测到只有1T
  • 需检查磁盘是否损坏、接口接触不良

4、异常-内存减少

主要是内存变动,例如原32G,现在只有16G
  • 需检查磁盘是否损坏、接口接触不良

5、异常-网卡降速

例如网卡从万兆速率,变成千兆速率,或网卡速率降0等
  • 需检查网卡是否故障,灯口是否正常亮起

6、异常-线路IP变化

主要为出口IP变化次数过多,影响业务正常调度
  • 检查网线、光猫、交换机负载是否正常
  • 检查光衰是否在推荐范围,一般推荐是在【-18,-25】的区间
  • 检查网卡是否正常连接

7、异常-线路重拨

主要线路频繁断线重拨,影响业务正常调度
  • 检查网线、光猫、交换机负载是否正常
  • 检查光衰是否在推荐范围,一般推荐是在【-18,-25】的区间
  • 检查网卡是否正常连接

8、异常-线路延迟大

主要线路延时过高,影响业务正常调度
  • 检查网线、光猫、交换机负载是否正常
  • 检查光衰是否在推荐范围,一般推荐是在【-18,-25】的区间
  • 检查网卡是否正常连接
2024-08-16
3 5