1.
为何在购买前必须做性能与压力测试
(1)确保服务满足业务峰值并发需求,不致上线后崩溃或丢单。
(2)验证供应商标称的带宽与防护能力(如宣称100Gbps/300Gbps抗DDoS)是否真实可用。
(3)发现硬件瓶颈:CPU、内存、网卡或磁盘IO哪个先饱和,从而选择合适配置。
(4)评估网络延迟与丢包率,香港节点对内地和全球用户的响应差异。
(5)提前模拟攻击场景(SYN/UDP/HTTP FLOOD)以验证防护策略和清洗链路。
(6)制定可量化的验收标准,避免事后维权困难。
2.
核心测试指标与验收阈值
(1)带宽利用率:目标带宽的90%以内为正常测试范围;超过95%需注意链路瓶颈。
(2)并发连接数与RPS:例如预期峰值并发10万连接,目标RPS>=5000。
(3)延迟分布:关注p50/p95/p99,常见验收为p95<200ms(面向中国大陆用户可要求更低)。
(4)CPU、内存与中断:CPU<70%且网卡中断(irq)无大量丢包为合格。
(5)丢包率与重传:丢包<0.1%为正常,若高于1%需进一步追踪链路或防护设备丢弃。
(6)抗DDoS触发行为:触发清洗前后的可用性、误伤率应记录并纳入SLA。
3.
常用测试工具与典型命令
(1)iperf3:测试TCP/UDP带宽,命令示例 iperf3 -c server -P 10 -t 60 用于并发流数测试。
(2)wrk/wrk2:对HTTP接口压测,示例 wrk -t12 -c200 -d60s http://ip:port/ 。
(3)hping3:构造SYN/UDP/ICMP攻击模拟,示例 hping3 --flood -S -p 80 target 。
(4)ab/siege:快速验证短连接RPS,示例 ab -n 100000 -c 200 http://ip/ 。
(5)iftop、nload:实时带宽监控;vmstat、iostat:系统资源监控。
(6)tcpdump结合Wireshark用于抓包分析,定位丢包与TCP重传来源。
4.
测试方案设计与分阶段执行(含示例表格)
(1)准备阶段:确认测试窗口、白名单IP、商业流量隔离与应急联系人。
(2)单机性能测试:先压测Web/应用在单机负载下的RPS与延迟。
(3)链路压力测试:用iperf3逐步升带宽到目标值,观察丢包与抖动。
(4)DDoS模拟:用hping3模拟SYN/UDP floods,评估防护触发与清洗效果。
(5)并发连接稳定性:长连接(Keep-Alive)与短连接并发测试,观察连接表耗尽情况。
(6)示例测试结果汇总表(三套常见香港高防配置对比):
| 配置 | 带宽 | 抗DDoS能力 | 并发连接 | RPS | p95 延迟(ms) |
| HK-Std | 1Gbps | 50Gbps | 20,000 | 3,200 | 180 |
| HK-HighMem | 1Gbps | 100Gbps | 50,000 | 7,500 | 120 |
| HK-HighDDos | 10Gbps | 300Gbps | 200,000 | 25,000 | 95 |
5.
真实案例:电商平台在双11前的压力测试
(1)背景:某中型电商选择香港高防独立服务器做异地防护节点,目标峰值并发50万,RPS目标20,000。
(2)配置:16核Intel Xeon E5, 内存64GB, NVMe 1TB, 带宽10Gbps, 抗DDoS容量300Gbps。
(3)测试步骤:先用wrk做API压测到RPS=20,000,记录p95/p99与CPU;再用iperf3在不同时间段升带宽至8Gbps观察链路。
(4)发现问题:在并发达到120,000长连接时,内核文件描述符耗尽导致服务拒绝新连接,后调整ulimit与nginx keepalive设置解决。
(5)DDoS模拟结果:在模拟300Gbps UDP喷发时,防护设备在120秒内完成清洗,业务无明显可见中断,误杀率低于0.5%。
(6)结论:最终选型为上述配置,并在SLA中明确清洗时延与误伤率指标。
6.
测试报告要点与验收清单
(1)测试范围与环境:列明公网IP、白名单、测试工具版本及测试持续时间。
(2)关键数据点:带宽峰值、RPS最大值、p95/p99延迟、CPU/内存峰值、丢包率。
(3)抗DDoS效果:清洗触发阈值、清洗时延(s)、清洗后恢复时间、误伤率。
(4)异常与优化建议:如调整内核参数(net.core.somaxconn、tcp_tw_reuse)、网卡多队列、RSS调度。
(5)最终验收:将测试数据与供应商SLA对照,签署书面测试报告并保留日志与抓包证据。
(6)建议保存:测试脚本、命令行输出、监控曲线(CPU/带宽/连接数)至少保存3个月。
7.
购买建议与后续监控落地措施
(1)选择按需扩展的带宽与可升级的防护档位,避免一次性低配造成后期迁移成本。
(2)要求供应商提供测试窗口支持与协助模拟攻击的白名单管理。
(3)上线后持续监控:部署Prometheus/Grafana或Zabbix收集带宽、连接、CPU、磁盘IO等。
(4)制定应急预案:当带宽利用率>70%或丢包>0.5%时自动报警并触发人工排查流程。
(5)定期复测:业务逻辑或架构变更后需复测,节假日前做专项压测。
(6)法律与合规:模拟攻击需书面同意并符合法律法规,避免对第三方造成影响。