英伟达刷新DeepSeek-R1推理纪录：每秒每GPU处理8064个词元-DIY装机专区

英伟达刷新DeepSeek-R1推理纪录：每秒每GPU处理8064个词元

作者：辛文辉编辑：辛文辉 2026-04-02 14:24 IT168网站原创

【IT168原创新闻】在被誉为"AI界最严苛大考"的MLPerf v6.0 AI推理基准测试中，英伟达再次交出满分答卷，以Blackwell Ultra架构（GB300 NVL72）实现了全方位的性能碾压，其推理训练胜利数量领先最接近的竞争对手9倍。

MLPerf v6.0引入多项前沿模型

相比此前的v5.1版本，本月（2026年4月）发布的MLPerf v6.0引入了多个前沿的生成式AI模型，并重点升级推理交互性和大规模多节点系统。新增模型包括：GPT-OSS-120B（大型开源权重语言模型）、DeepSeek-R1交互模式、Qwen3-VL-235B（多模态视觉语言模型）、WAN-2.2（文生视频基准）、DLRMv3（第三代推荐系统基准）以及YOLOv11 Large（边缘计算目标检测）。

DeepSeek-R1测试成绩亮眼

在备受瞩目的DeepSeek-R1服务器端测试中，英伟达交出了每秒每GPU处理8064个词元（token）的成绩。与之前的v5.1版本相比，处理速度大幅飙升2.77倍。此外，在Llama 3.1 405B模型的服务器与离线测试中，英伟达也分别实现了1.52倍和1.21倍的性能提升。

跑分 | GB300 NVL72 v5.1 | GB300 NVL72 v6.0 | 提速

DeepSeek-R1(Server) | 2,907 tokens/sec/gpu | 8,064 tokens/sec/gpu | 2.77x

DeepSeek-R1(Offline) | 5,842 tokens/sec/gpu | 9,821 tokens/sec/gpu | 1.68x

Llama 3.1 405B(Server) | 170 tokens/sec/gpu | 259 tokens/sec/gpu | 1.52x

此次成绩进一步巩固了英伟达在AI推理领域的领先地位，Blackwell Ultra架构的强大算力正在持续刷新行业标杆。

关注我们