今天小編(賁芳蕤)要和大家分享的是AMD跑DeepSeek性能超H200!128并發Token間延遲不超50ms,吞吐量達H200五倍,歡迎閱讀~
DeepSeek-R1 掀起新一輪購卡潮的同時,AMD 的含金量也上升了。
在 AMD 的 MI300X 上跑 FP8 滿血 R1,性能全面超越了英偉達 H200——
相同延遲下吞吐量最高可達 H200 的 5 倍,相同并發下則比 H200 高出 75%。
這個結果,一方面歸功于 SGLang 框架,另一方面則是得益于 AMD 新優化的 AI 内核庫 AITER。
AITER 可以用來加速 GPU 訓練和推理,AMD 副總裁 Emad Barsoum 直接喊出了AITER is all you need。
還有網友表示,英偉達CUDA 的護城河要終結了。
之前著名黑客George Hotz也曾表示自己非常看好 AMD,認為只要有好的軟體 MI300X 表現就能超越 H100。
結果 MI300X 超額實現了 George 的期待,直接把 H200 給超了。
吞吐翻倍、延遲更低
AMD 的測試結果顯示,MI300X 在延遲相似的情況下實現了 H200 五倍的吞吐量,超過了每秒 7k Tokens。
如果固定并發數量,MI300X 相同并發下的吞吐量比 H200 高 75%,延遲降低 60%。
如果需要 Token 間延遲不超過 50 毫秒,一個 H200 節點可以處理 16 個并發請求,MI300X 節點則可以處理 128 個。
除了 AMD 自己,也有第三方對 H100 和 MI300X 進行了對比測試。
結果除了首個 Token 延遲出現了一些不穩定之外,其餘的速度和延遲指标都是 MI300X 全面超過了 H100。
看到 MI300X 的表現,有人拿出了老黃經典的那句 " 買的越多省的越多 ",表示現在這句話該讓 AMD 來說了。
那麼,在這些成績的背後,AMD 都用了那些技術呢?
SGLang 框架 +AMD 張量引擎
軟體框架層面,R1 在 MI300X 上取得優異表現的關鍵,是SGLang 框架。
SGLang 是一個開源大模型推理框架,是開源社區協作的一項成果,發起者是 LMSYS,也就是搞大模型競技場的那個組織。
SGLang 在 GitHub 上擁有超過 1.2 萬星标,并且不論 AMD 還是隔壁英偉達,以及馬斯克的 xAI,都非常青睐這個框架,此外 AMD 還是 SGLang 的主要貢獻者之一。
在稍早一些的測試當中,使用 SGLang 在 MI300X 上運行 DeepSeek-R1,僅過了兩周就相比于 day 0 時性能提升到了 4 倍,吞吐量達到了每秒 5921 Tokens。
前面提到的第三方,也在 MI300X 上分别用 SGLang 和 vLLM 進行了測試,結果 SGLang 完勝。
實際上,SGLang一直是 DeepSeek 模型的一個最佳拍檔,不僅對于 AMD,在英偉達 H200 上,也能帶來類似的性能提升。
而在硬體層面,MI300X 高效運行 R1 的關鍵,是 AMD 為 ROCm(可以理解為 AMD 版 CUDA)打造的AI 張量引擎 AITER。
AITER 是一個包含大量高性能 AI 算子的集中式存儲庫,也是一個統一平台,可以輕松找到優化的算子并将其集成到現有框架中。
AITER 的基礎架構建立在多種底層技術之上,包括 Triton、CK(計算内核)、ASM(匯編)和 HIP(異構可移植性接口)。
它支持各種計算任務,例如推理工作負載、訓練内核、GEMM(通用矩陣乘法)運算和通信内核。
它可以讓 GEMM 的性能提升 2 倍、MoE 性能提升 3 倍、MLA 解碼性能提升 17 倍、MHA 預填充性能提升 14 倍。
開啟 AITER 後,MI300X 上 DeepSeek-V3 的吞吐量是開啟前的兩倍多。
除了框架和硬體的适配,AMD 還進行了超參數調整。
AMD 發現,當運行具有大量線程(例如 128 個或更多)的程式時, 由于預填充吞吐量緩慢,帶來了系統的性能瓶頸。
于是 AMD 提高了 chunked_prefill_size 參數的大小,用更高的内存占用換取了預填充過程的加速。
不過考慮到内存容量大本就是 MI300X 的一大特色,這種選擇也不失為一種更優的結果。
那麼,你覺得這次 AMD 是不是又 Yes 了呢?
參考鏈接:
[ 1 ] https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1-Part2/README.html
[ 2 ] https://x.com/tngtech/status/1901779226602115076
[ 3 ] https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html
關于AMD跑DeepSeek性能超H200!128并發Token間延遲不超50ms,吞吐量達H200五倍就分享完了,您有什麼想法可以聯系小編(賁芳蕤)。