1.1 准备清单:确定测试目标(本地香港访问、内地访问、国际回程)、测试机器(Linux/Windows)、SSH或远程控制权限、日志存储位置。
1.2 工具安装:推荐安装 iperf3、mtr/traceroute、ping、speedtest-cli(Ookla或speedtest-cli)、tcping、tshark、以及系统监控工具(sar、iftop)。示例安装(Ubuntu):sudo apt update && sudo apt install -y iperf3 mtr-traceroute traceroute tcping tshark。
2.1 单向TCP测试:在服务器端启动:iperf3 -s --logfile /root/iperf_server.log;在本地机执行:iperf3 -c <服务器IP> -P 4 -t 60 -i 10 -J > iperf_client.json。说明:-P 并发流数,-t 测试秒数,-J 输出JSON便于后处理。
2.2 UDP与抖动:iperf3 -c <服务器IP> -u -b 500M -t 60 -P 4,用于测丢包/抖动。注意:ISP可能会限速,UDP需谨慎。查看服务器端日志与客户端丢包率、jitter。
2.3 多目标测试:对香港本地节点、内地出口IP、国际骨干(美/日/EU)分别跑多次,记录95th带宽与并发流下的吞吐下降。
3.1 长时间Ping:Linux示例:ping -c 1000 -s 1200 <目标IP> > ping_log.txt,或 Windows: ping -n 1000 -l 1200
3.2 MTR持续路由检测:mtr -rwz -c 300 <目标域名/IP> > mtr_report.txt,参数含义:-r 生成报告,-w 宽输出,-z 省略零值,-c 次数。重点查看波动明显的跃点(Loss% 前后比对)。
3.3 TCP Traceroute:traceroute -T -p 80
4.1 MTU 测试:Linux用 ping -M do -s 1472
4.2 丢包定位:若 mtr 某跳出现高丢包但下一跳恢复,需判断是该设备对ICMP限流还是实际丢包。用多端点复测(从不同源测向同一目的),并结合应用层测试(iperf3)确认。
4.3 抖动测量:使用 iperf3 UDP 模式输出 jitter,或在VoIP场景用 rtpstat/sipp 等工具模拟并记录抖动分布。
5.1 时间段选择:至少覆盖高峰与低峰(建议:工作日高峰 09:00-12:00、19:00-23:00;非高峰 02:00-05:00),每段至少连续 24-72 小时采样。
5.2 自动化脚本:示例 cron 调度:每 5 分钟运行 ping 及 mtr,每 4 小时跑一次 iperf3 长测(60s),并用 rsync 或 scp 把日志集中到分析主机。脚本应记录时间戳(ISO 8601)与测试参数。
5.3 指标汇总:统计平均/中位/95th 延迟、丢包率、抖动、最大带宽、拥塞时段表现。制作图表(Grafana/InfluxDB 或 Excel)便于比较。
6.1 BGP/对等与HKIX:通过 bgp.he.net、RouteViews 或运营商 Looking Glass(如 PCCW、HKT、NCS)检查 AS 路径与是否经过 HKIX、是否有非对称路由。
6.2 SLA/99.9% 等条款:向托管商索取带宽/端口的 SLA 文档(上行/下行保证、丢包阈值、故障响应时限、95th 计费方法、拥塞策略)。确认是否存在“端口共享/争用比(contention ratio)”。
6.3 IPv6 与 CDN:要求同时测试 IPv6 路径与 CDN(如 Cloudflare、Akamai)到香港的表现,检查 DNS 就近解析、Anycast 性能。
问题:我拿到测试数据,怎样判断网络质量是否满足业务需求?
回答:根据业务场景设阈值:网站/下载类关注吞吐,95th 吞吐达到承诺且峰值稳定;实时语音/视频需延迟<80ms、丢包<1%、抖动<30ms(最好<15ms);金融类对延迟更敏感,力求交易路径延迟最小且抖动极低。结合 SLA、历史波动图判断是否合格。
问题:测试中发现间歇性丢包或抖动,如何快速定位责任方?
回答:先用 mtr 定位丢包跃点,再从不同来源(第三方 VPS、不同回程)复测确认是否为特定链路问题;同时对比应用层 iperf3(若应用仍能达到带宽说明可能ICMP限流);将证据(mtr、iperf、ping 时间序列)发给托管商排查路由/链路故障或设备限速。
问题:一次性短测是否足够,还是需要长期监控?
回答:短测(几分钟到一小时)可做初筛,但不具代表性。建议至少 48-72 小时的连续采样覆盖高低峰,若业务要求高可做 14 天或月度监控,并使用历史对比(含突发事件/维护窗口)作为最终结论依据。