版本:下一个
性能测试
在测试报告中,我们使用 vLLM benchmark 在以下三种场景执行测试脚本,并汇总最终结果。
测试环境
| 参数 | 值 |
|---|---|
| Kubernetes version | v1.35.4 |
| Docker version | 29.4.0 |
| GPU Type | A100-SXM4-40GB |
| GPU 数量 | 2 |
测试实例
| 测试名称 | 测试用例 |
|---|---|
| Native | k8s + nvidia 官方 k8s-device-plugin |
| Opensource_v280 | k8s + VGPU k8s-device-plugin,开源版本 v280 |
| Opensource_v290 | k8s + VGPU k8s-device-plugin,开源版本 v290 |
测试内容
| test id | 名称 | 类型 | 参数 |
|---|---|---|---|
| 6.1 | Qwen3-8B (vLLM) | inference | batch=1, stream=True, max_model_len=8192 |