核心监控指标应覆盖三大维度:可用性、性能与稳定性。可用性指标包括连通率(ICMP/TCP成功率)与端口可达性;性能指标为响应时延(平均/95分位)、吞吐量与每秒并发连接数;稳定性指标关注错误率(5xx/连接重置)与掉线次数。
为避免误报,建议设置分级告警:警告阈值(连通率<95%、平均时延>300ms、错误率>2%)与严重阈值(连通率<85%、平均时延>800ms、错误率>5%)。
采集频率推荐1分钟粒度,关键指标保留90天以便回溯分析。
日志与抓包是深层排查的核心手段。先从代理服务日志(连接建立、认证、异常断开)入手,再在客户端与出口网关做双端抓包,过滤TCP RST / SYN重传 / TLS握手失败等关键报文。
1)定位时间窗;2)比对客户端与代理端日志;3)抓取SYN/ACK往返时延和重传次数;4)若为TLS问题,检查证书链与握手异常码。
关注“auth fail”、“connection reset”、“timeout”、“rate limit”等关键字,并配合请求ID做链路关联。
tcpdump、Wireshark、Elastic Stack(ELK)、Fluentd 及自建聚合平台均适用。
网络故障通常表现为高延时、丢包或路由异常。排查顺序:本地网络→本地ISP→香港出口→目标服务。使用ping、mtr/traceroute检测丢包与路径跳数。
若存在路径不稳定或绕行,需核查BGP公告、AS路径变化与邻居会话状态,联系上游ISP或香港骨干运营商确认。
检查会话表、SNAT池耗尽、端口映射错配与防火墙策略(如短时间内大量连接被限速或丢弃)。
认证问题表现为大量401/403或被动踢出。先确认认证服务(LDAP/Radius/Token)可用性与响应时延,再检查代理的认证缓存与失效策略。
限流通常会产生日志中明确的“rate limit”或“quota exceeded”。排查从策略下发、配额计算逻辑到分布式限流一致性(如Redis/Consul)逐层核对。
使用受控客户端并行请求以复现场景,观察限流阈值与时间窗口,并比对计数器数据。
建立SOP(标准操作流程),包含监控告警→初步排查→日志抓取→临时缓解→根因定位→修复与回归。每步应有责任人、时间窗与回退步骤。
定期进行故障演练(包括网络故障、认证失效、出口带宽占满等),并保留演练回放与改进清单,将演练结果纳入KPI改进计划。
将常用排查脚本、抓包命令、诊断仪表板与答案文档化,纳入运维Runbook,提升排障效率。