近期,由深度求索(DeepSeek)发布的最 新生成式AI大模型DeepSeek-V3火爆海内外科技圈。AMD数据中心GPU 也第 一时间实现了对 DeepSeek-V3 模型的支持,且集成了 SGLang 优化以提供最 佳性能。
DeepSeek-V3 是一个强大的开源混合专家MoE(Mixture-of-Experts)模型,共有6710 亿个参数,也是目前开源社区最 受欢迎的多模态模型之一,其创新模型架构打破了高效低成本训练的记录,令业界称赞。DeepSeek-V3不仅 沿用了V2中的多头潜在注意力机制(Multi-head Latent Attention, MLA)及 DeepSeek MoE 架构, 还开创了一种无辅助损失的负载平衡策略,并设定了多 token 预测训练目标以提高性能。DeepSeek-V3 允许开发人员使用高级模型,充分利用内存以同时处理文本和视觉数据,为开发人员提供更多功能。目前,DeepSeek-V3 在各个主流基准测试中比肩世界顶 级开源及闭源模型,如GPT-4o,Claude 3.5 Sonnet, Qwen2.5-72B等,更展现出超强的长文本处理、数学及代码编程能力,堪称惊艳。
AMD ROCmTM 开源软件和 DeepSeek-V3
DeepSeek-V3的问世正在悄然改变多模态大模型的格局。以往多模态大模型的训练或推理往往需要巨大的计算资源和内存带宽来处理文本和视觉数据,AMD 数据中心GPU加速器在这些领域提供了卓越的性能。
AMD ROCm™ 开源软件和 AMD 数据中心GPU 加速器在 DeepSeek-V3 开发的关键阶段发挥了重要作用,AMD 的可扩展基础设施使开发人员能够构建强大的视觉推理和理解应用。
采用FP8低精度训练是DeepSeek-V3的一大亮点,AMD ROCm 对FP8的 支持显著改善了大模型的计算过程,尤其是推理性能的提升。通过对FP8的支持,ROCm能够更高效地解决内存瓶颈和与更多读写格式相关的高延迟问题,使更大的模型或批次能够在相同的硬件限制内处理;此外,相较于FP16,FP8精度计算可以显著减少数据传输和计算的延迟,从而实现更高效地训练和推理。AMD ROCm 在其生态系统中扩展了对 FP8 的支持,能够满足用户对从框架到计算库全面性能和效率提升的需求。
如何在 AMD数据中心GPU 上使用 SGLang 进行推理
开发者可访问https://github.com/sgl-project/sglang/releases 获取SGLang对 DeepSeek-V3 模型推理的完整支持。
创建 ROCm Docker 镜像
1. 启动 Docker 容器:
docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\
--device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \\
--group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.1.post4-rocm620
2. 开始使用:
1) 登录 Hugging Face:
使用 CLI 登录 Hugging Face:
huggingface-cli login
2) 启动 SGLang 服务器:
在本地机器上启动一个服务器来托管 DeepSeekV3 FP8 模型:
python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code
3) 生成文本:
在服务器运行后,打开另一个终端并发送请求生成文本:
curl http://localhost:30000/generate \
-H "Content-Type: application/json" \
-d '{
"text": "Once upon a time,",
"sampling_params": {
"max_new_tokens": 16,
"temperature": 0
}
}'
3. 性能基准测试:
单批次吞吐量和延迟:
python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
服务器:
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8
精度:0.952
无效:0.000
注意:由于DeepSeek-v3原生为FP8 训练,且目前仅提供 FP8 权重,如果用户需要 BF16 权重进行实验,可以使用提供的转换脚本进行转换。以下是将 FP8 权重转换为 BF16 的示例:
cd inference
python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights
AMD + DeepSeek构建开源AI新格局:Day 0 上线即支持
随着 DeepSeek-V3 的发布,AMD 将继续借助ROCm开源生态与 DeepSeek推动创新。AMD AI开源策略将确保开发者能够从 Day-0 开始使用基于 AMD数据中心GPU 的 DeepSeek模型,通过更广泛的 GPU 硬件选择和开放的 ROCm™软件栈, 以同时实现优化性能及可扩展性。AMD 将继续借助 CK-tile 内核优化等方式实现 DeepSeek模型推理性能提升。同时,AMD 致力于与更多开源模型提供商合作,加速 AI 创新,并使开发人员能够创建下一代 AI 体验。
更多资源:
了解更多 AMD ROCm™开源软件栈,包括可用于AI 和 HPC 解决方案的模型、工具、编译器、库和运行时:https://www.amd.com/en/products/software/rocm.html
了解更多AMD Instinct™ 加速器:https://www.amd.com/en/products/accelerators/instinct.html
通过 Hugging Face 了解有关 DeepSeek-V3 的更多信息,包括其架构和性能基准:https://huggingface.co/deepseek-ai/DeepSeek-V3
访问DeepSeek 官方聊天平台,与 DeepSeek-V3 聊天互动:chat.deepseek.com
访问 DeepSeek兼容OpenAI API,以在 DeepSeek 平台上构建和集成您自己的应用程序:platform.deepseek.com