高馬爾
一個信息發佈的網站

DeepSeek讓英偉達H20都被瘋搶,但AI推理爆發不只靠囤卡

今天小編(郟君昊)要和大家分享的是DeepSeek讓英偉達H20都被瘋搶,但AI推理爆發不只靠囤卡,歡迎閱讀~

什麼?H20 都變搶手貨,漲價 10 萬那種?!

最近有市場消息稱,原本不受青睐的英偉達 H20 咨詢量暴漲幾十倍,8 卡 H20 機器的價格也較年前漲價十萬(單價 110 萬左右),有從業者預測 " 價格不會下來了 "。

要知道,H20 是中國特供版,顯存帶寬等方面明顯受限,性能及性價比都遠不如 H100。

如今市場風向有了變化,業内人士爆料某互聯網大廠已經下單 10-20 萬卡,整體市場 H20 的訂單量都大幅增加。

背後原因,直觀來看是 DeepSeek 熱潮。更深入則是——

AI 推理需求爆了。

H20 盡管性能只有 H100 的 1/10,但是做推理綽綽有餘,顯存夠、适合跑大規模參數模型,價格還便宜更多。

AI Infra 廠商 PPIO 派歐雲聯合創始人兼 CEO 姚欣向量子位透露,去年年底 H20 還沒有這麼搶手,但是到了春節後又是另一番景象,AI 算力供需正在極速變化。

與之相對應,英偉達 CEO 黃仁勳在最新一季财報發布後也表示,當前 AI 模型所需的算力是此前模型的100 倍,帶動算力需求增加的關鍵是AI 推理

見微知著,AI 算力行業風向已經發生變化,新的機遇也已經在醞釀。

DeepSeek 重構算力邏輯,推理需求面臨爆發

先一句話總結,DeepSeek 以算法創新重構 AI 算力邏輯,推動 AI 計算從 " 訓練為主 " 向 " 推理為主 " 範式轉變,AI 推理需求因此迎來全面爆發。

首先來看 DeepSeek 做了什麼?

它今年開源的兩款模型,在架構和算法上實現了訓練推理效率提升。

第一,DeepSeek-V3 采用 MoE(混合專家模型)架構,在 AI Infra 層面提出大規模跨節點專家并行(Expert Parallelism/EP)。

EP 使得 batch size 大大增加,從而提高 GPU 矩陣乘法的效率,提高吞吐。專家模型分散在不同的 GPU 上,每個 GPU 只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。

同時,DeepSeek-V3 的專家模型數量從上一版的 160 個增加到 256 個。" 大量小專家 " 模型架構能進一步降低單次推理時激活的參數量。

第二DeepSeek-R1-Zero 邁出利用強化學習提升語言模型推理能力第一步。在沒有任何監督數據的情況下,通過純強化學習過程進行自我進化,從而獲得推理能力。DeepSeek-R1采用 FP8 混合精度訓練框架和動态學習率調度器等技術,将訓練成本降低到 560 萬美元,遠低于 OpenAI。同時還能将模型能力蒸餾到更小的密集模型中。

這種低成本模式使得模型能夠更廣泛應用于 AI 推理場景。

其次,為啥 DeepSeek 可以成為推動算力趨勢轉變的導火索?

從大模型整體發展進程來看,預訓練 Scaling Law 已經放緩,推理 Scaling Law 成為新方向。

推理 Scaling Law 的核心是通過增加推理時計算資源(如推理時間、算力)來提升模型性能。以 o1 為代表的推理模型都是通過在推理階段引入多步驟的思維鏈和強化學習,顯著提升了推理能力,這導致推理計算需求的大幅增加。

o1 模型固然好用,但是卻不開源。DeepSeek 正是為此而來,它們為全行業提供了一個性能優秀的開源可替代方案,瞬間改變整體局面。

憑借低成本、高性能的特點,DeepSeek 引發全社會範圍熱潮。不僅是普通人能夠免費用,大中小企業也能将 DeepSeek 系列模型與自身業務融合。

尤其是 ToB 領網域,優質開源模型解決了企業在數據維度的顧慮——沒有人願意将自己或用戶的數據免費貢獻給閉源模型做訓練。同時 DeepSeek 暫時沒有将模型商業化的考慮,更接近真正意義上的開源。這也點燃了企業擁抱 AI 的熱情,更加速了 AI 落地進程,推理需求空前爆發。

由此,量變引發質變,AI 計算的需求以及底層邏輯發生變化。

相較于預訓練,推理計算在硬體門檻、集群建設等方面要求都更低。

超大規模集群不再是必需,小集群甚至單機,将是未來 AI Infra 的主要特性。

PPIO 姚欣結合 DeepSeek 一系列動向以及行業現狀給出分析,DeepSeek 提出的跨節點專家并行系統,已經一定程度上體現出了分布式的思想,它把不常用的專家模型集中到一台機器上,常用的專家模型分配更多算力。由此形成調度上的平衡。

這進一步扭轉了算力行業的深層邏輯。原本大家都在期待英偉達如何從硬體層面帶來更好的推理性能,如今通過 EP 的方式,可以用 H800 跑出 H100 的性能。

也解釋了為何 DeepSeek 可以影響英偉達的股價。因為通過系統優化,底層硬體的護城河沒有那麼深了。

由此看到,H20 這樣原本不被大廠推崇的推理計算卡開始搶手。甚至更進一步,英偉達本身的地位也會受到影響。

姚欣判斷,未來,英偉達一家獨大的情況也會有所改變,理時代,推理芯片将百花齊放。比如根據 DeepSeek 研究人員的測試結果,推理任務中昇騰 910C 性能可達 H100 的 60%。

這進一步影響算力供給側的結構和邏輯。再具體一點,就是 AI Infra 架構的轉變。

該朝着哪個方向做?即将爆發的 AI 應用落地浪潮已經給出指引——優化與降本

AI Infra 扛起推理時代成本優化重任

相較于預訓練時代,推理時代對雲計算、AI Infra 有着全新需求。

預訓練時代,雲廠商提供的服務更傾向于一個裸金屬的訓練環境。因為是集中式集群,每一台機器幾乎都是跑滿的,雲廠商能優化的空間有限。推理時代,每個企業更傾向于選擇公有雲服務部署模型

這意味着雲廠商接下來的競争點應該是從不同卡型到模型層的全棧優化。

不過為啥由 AI Infra/ 雲廠商來做?

從技術底層到實際成本優化上,AI Infra/ 雲廠商有自己的生态位優勢。

從技術角度出發,并不是所有 AI 廠商都具備處理高并發、高流量、高彈性的互聯網服務經驗。

比如前不久 DeepSeek 突然公布成本利潤率理論值可達 545%,引發諸多業内争議。

PPIO 姚欣表示:

作為作為一個真正服務過 4.5 億用戶的創始人來說,在真實情況下,所有互聯網用戶請求都一定有波峰、波谷,一天的用戶請求變化應該是一條曲線。如果在最高峰的時候,突然變成一條直線了,這意味着,在那個時間段用戶請求進不來。

所以總結來說,春節期間 DeepSeek 的服務崩潰,滿足不了用戶、企業服務。

換言之,DeepSeek 的服務和技術架構更進一步需要" 彈性 " 算力,才可能解決這樣的問題。PPIO 派歐雲在春節期間第一時間接入 DeepSeek,利用分布式推理和大規模算力調度,從而實現了更大彈性的負載均衡,保證客戶的服務質量、穩定性。

另外,在基礎設施建設上,AI Infra 廠商更有先天優勢。

其中一部分玩家通過自建 IDC 提供多種算力服務,代表玩家有阿裡雲等;還有一部分玩家選擇通過分布式網絡提供算力服務,它們不自建 IDC、不購入 GPU,而是通過獨特的算力共享調度的方式,代表玩家有 PPIO 派歐雲。

二者比較,前者能提供的綜合性服務更多,後者在性價比和資源調度上更有優勢。

如 PPIO 的分布式架構,打破了傳統集中式架構的瓶頸,不僅為企業大幅降低了運維壓力,還将系統的處理效率提升到了一個全新的高度。通過 PPIO 提供的 AI 推理平台,企業可以免去自行部署後台服務的繁冗過程,直接調用 API 服務即可,不再需要自行運維,成本直接減少了 40%

速度方面,得益于 PPIO 遍布全球的分布式雲服務網絡,無論用戶身處何地,都能找到近距離的算力節點,獲得 20 毫秒級的低延遲體驗。PPIO 通過獨特方式調用全國範圍的算力節點,能為企業用戶帶來更彈性、更穩定、更劃算的 AI 推理服務。

據了解,PPIO 在整個春節期間 ToB 方向的 DeepSeek 服務可用性做到了 99.9%,無 TPM 限制。其中關鍵就在于底層足夠彈性。現階段,PPIO 平台的日均 tokens 消耗量已經突破了 1300 億,與 " 六小龍 " 日均 tokens 消耗量不相上下。

此外,在算法層面,PPIO 還提出 KV Cache 稀疏化壓縮算法、Hydra Sampling 投機采樣技術以及端到端 FP8 推理三大核心技術,進一步突破顯存、算力和帶寬對大模型推理性能的限制。由此,PPIO 能夠迅速适配和優化各種開源大模型。比如,PPIO 算力雲產品已為百川智能提供大規模 AI 推理服務

" 只有當 AI Infra 公司能提供足夠高性能和低成本的基礎建設,讓大量 AI 應用的收入足以覆蓋所有的推理成本,才會迎來 AI 應用落地的大爆發,用戶也會迎來 AI 應用的免費時代。"姚欣表示。

DeepSeek 振臂一揮之後,還需要全產業上下遊通力合作,才能進一步加速大規模應用落地。

如今,值得關注的玩家紛紛站出來,承接流量的同時,更進一步推進新浪潮發生。AI Infra 玩家們的動作,還只是表現之一。

而随着越來越多產業夥伴加入,更龐大的需求和市場還在醞釀之中。

趨勢轉變之後,又是一個新開始。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于DeepSeek讓英偉達H20都被瘋搶,但AI推理爆發不只靠囤卡就分享完了,您有什麼想法可以聯系小編(郟君昊)。