DIY装机 频道

英伟达刷新DeepSeek-R1推理纪录:每秒每GPU处理8064个词元

【IT168原创新闻】在被誉为"AI界最严苛大考"的MLPerf v6.0 AI推理基准测试中,英伟达再次交出满分答卷,以Blackwell Ultra架构(GB300 NVL72)实现了全方位的性能碾压,其推理训练胜利数量领先最接近的竞争对手9倍。

MLPerf v6.0引入多项前沿模型

相比此前的v5.1版本,本月(2026年4月)发布的MLPerf v6.0引入了多个前沿的生成式AI模型,并重点升级推理交互性和大规模多节点系统。新增模型包括:GPT-OSS-120B(大型开源权重语言模型)、DeepSeek-R1交互模式、Qwen3-VL-235B(多模态视觉语言模型)、WAN-2.2(文生视频基准)、DLRMv3(第三代推荐系统基准)以及YOLOv11 Large(边缘计算目标检测)。

DeepSeek-R1测试成绩亮眼

在备受瞩目的DeepSeek-R1服务器端测试中,英伟达交出了每秒每GPU处理8064个词元(token)的成绩。与之前的v5.1版本相比,处理速度大幅飙升2.77倍。此外,在Llama 3.1 405B模型的服务器与离线测试中,英伟达也分别实现了1.52倍和1.21倍的性能提升。

跑分  |  GB300 NVL72 v5.1  |  GB300 NVL72 v6.0  |  提速

DeepSeek-R1(Server)  |  2,907 tokens/sec/gpu  |  8,064 tokens/sec/gpu  |  2.77x

DeepSeek-R1(Offline)  |  5,842 tokens/sec/gpu  |  9,821 tokens/sec/gpu  |  1.68x

Llama 3.1 405B(Server)  |  170 tokens/sec/gpu  |  259 tokens/sec/gpu  |  1.52x

此次成绩进一步巩固了英伟达在AI推理领域的领先地位,Blackwell Ultra架构的强大算力正在持续刷新行业标杆。

0
相关文章