今天小编(郟君昊)要和大家分享的是DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡,欢迎阅读~
什么?H20 都变抢手货,涨价 10 万那种?!
最近有市场消息称,原本不受青睐的英伟达 H20 咨询量暴涨几十倍,8 卡 H20 机器的价格也较年前涨价十万(单价 110 万左右),有从业者预测 " 价格不会下来了 "。
要知道,H20 是中国特供版,显存带宽等方面明显受限,性能及性价比都远不如 H100。
如今市场风向有了变化,业内人士爆料某互联网大厂已经下单 10-20 万卡,整体市场 H20 的订单量都大幅增加。
背后原因,直观来看是 DeepSeek 热潮。更深入则是——
AI 推理需求爆了。
H20 尽管性能只有 H100 的 1/10,但是做推理绰绰有余,显存够、适合跑大规模参数模型,价格还便宜更多。
AI Infra 厂商 PPIO 派欧云联合创始人兼 CEO 姚欣向量子位透露,去年年底 H20 还没有这么抢手,但是到了春节后又是另一番景象,AI 算力供需正在极速变化。
与之相对应,英伟达 CEO 黄仁勋在最新一季财报发布后也表示,当前 AI 模型所需的算力是此前模型的100 倍,带动算力需求增加的关键是AI 推理。
见微知著,AI 算力行业风向已经发生变化,新的机遇也已经在酝酿。
DeepSeek 重构算力逻辑,推理需求面临爆发
先一句话总结,DeepSeek 以算法创新重构 AI 算力逻辑,推动 AI 计算从 " 训练为主 " 向 " 推理为主 " 范式转变,AI 推理需求因此迎来全面爆发。
首先来看 DeepSeek 做了什么?
它今年开源的两款模型,在架构和算法上实现了训练推理效率提升。
第一,DeepSeek-V3 采用 MoE(混合专家模型)架构,在 AI Infra 层面提出大规模跨节点专家并行(Expert Parallelism/EP)。
EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。专家模型分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。
同时,DeepSeek-V3 的专家模型数量从上一版的 160 个增加到 256 个。" 大量小专家 " 模型架构能进一步降低单次推理时激活的参数量。
第二,DeepSeek-R1-Zero 迈出利用强化学习提升语言模型推理能力第一步。在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。DeepSeek-R1采用 FP8 混合精度训练框架和动态学习率调度器等技术,将训练成本降低到 560 万美元,远低于 OpenAI。同时还能将模型能力蒸馏到更小的密集模型中。
这种低成本模式使得模型能够更广泛应用于 AI 推理场景。
其次,为啥 DeepSeek 可以成为推动算力趋势转变的导火索?
从大模型整体发展进程来看,预训练 Scaling Law 已经放缓,推理 Scaling Law 成为新方向。
推理 Scaling Law 的核心是通过增加推理时计算资源(如推理时间、算力)来提升模型性能。以 o1 为代表的推理模型都是通过在推理阶段引入多步骤的思维链和强化学习,显著提升了推理能力,这导致推理计算需求的大幅增加。
o1 模型固然好用,但是却不开源。DeepSeek 正是为此而来,它们为全行业提供了一个性能优秀的开源可替代方案,瞬间改变整体局面。
凭借低成本、高性能的特点,DeepSeek 引发全社会范围热潮。不仅是普通人能够免费用,大中小企业也能将 DeepSeek 系列模型与自身业务融合。
尤其是 ToB 领網域,优质开源模型解决了企业在数据维度的顾虑——没有人愿意将自己或用户的数据免费贡献给闭源模型做训练。同时 DeepSeek 暂时没有将模型商业化的考虑,更接近真正意义上的开源。这也点燃了企业拥抱 AI 的热情,更加速了 AI 落地进程,推理需求空前爆发。
由此,量变引发质变,AI 计算的需求以及底层逻辑发生变化。
相较于预训练,推理计算在硬體门槛、集群建设等方面要求都更低。
超大规模集群不再是必需,小集群甚至单机,将是未来 AI Infra 的主要特性。
PPIO 姚欣结合 DeepSeek 一系列动向以及行业现状给出分析,DeepSeek 提出的跨节点专家并行系统,已经一定程度上体现出了分布式的思想,它把不常用的专家模型集中到一台机器上,常用的专家模型分配更多算力。由此形成调度上的平衡。
这进一步扭转了算力行业的深层逻辑。原本大家都在期待英伟达如何从硬體层面带来更好的推理性能,如今通过 EP 的方式,可以用 H800 跑出 H100 的性能。
也解释了为何 DeepSeek 可以影响英伟达的股价。因为通过系统优化,底层硬體的护城河没有那么深了。
由此看到,H20 这样原本不被大厂推崇的推理计算卡开始抢手。甚至更进一步,英伟达本身的地位也会受到影响。
姚欣判断,未来,英伟达一家独大的情况也会有所改变,推理时代,推理芯片将百花齐放。比如根据 DeepSeek 研究人员的测试结果,推理任务中昇腾 910C 性能可达 H100 的 60%。
这进一步影响算力供给侧的结构和逻辑。再具体一点,就是 AI Infra 架构的转变。
该朝着哪个方向做?即将爆发的 AI 应用落地浪潮已经给出指引——优化与降本。
AI Infra 扛起推理时代成本优化重任
相较于预训练时代,推理时代对云计算、AI Infra 有着全新需求。
预训练时代,云厂商提供的服务更倾向于一个裸金属的训练环境。因为是集中式集群,每一台机器几乎都是跑满的,云厂商能优化的空间有限。推理时代,每个企业更倾向于选择公有云服务部署模型。
这意味着云厂商接下来的竞争点应该是从不同卡型到模型层的全栈优化。
不过为啥由 AI Infra/ 云厂商来做?
从技术底层到实际成本优化上,AI Infra/ 云厂商有自己的生态位优势。
从技术角度出发,并不是所有 AI 厂商都具备处理高并发、高流量、高弹性的互联网服务经验。
比如前不久 DeepSeek 突然公布成本利润率理论值可达 545%,引发诸多业内争议。
PPIO 姚欣表示:
作为作为一个真正服务过 4.5 亿用户的创始人来说,在真实情况下,所有互联网用户请求都一定有波峰、波谷,一天的用户请求变化应该是一条曲线。如果在最高峰的时候,突然变成一条直线了,这意味着,在那个时间段用户请求进不来。
所以总结来说,春节期间 DeepSeek 的服务崩溃,满足不了用户、企业服务。
换言之,DeepSeek 的服务和技术架构更进一步需要" 弹性 " 算力,才可能解决这样的问题。PPIO 派欧云在春节期间第一时间接入 DeepSeek,利用分布式推理和大规模算力调度,从而实现了更大弹性的负载均衡,保证客户的服务质量、稳定性。
另外,在基础设施建设上,AI Infra 厂商更有先天优势。
其中一部分玩家通过自建 IDC 提供多种算力服务,代表玩家有阿里云等;还有一部分玩家选择通过分布式网络提供算力服务,它们不自建 IDC、不购入 GPU,而是通过独特的算力共享调度的方式,代表玩家有 PPIO 派欧云。
二者比较,前者能提供的综合性服务更多,后者在性价比和资源调度上更有优势。
如 PPIO 的分布式架构,打破了传统集中式架构的瓶颈,不仅为企业大幅降低了运维压力,还将系统的处理效率提升到了一个全新的高度。通过 PPIO 提供的 AI 推理平台,企业可以免去自行部署后台服务的繁冗过程,直接调用 API 服务即可,不再需要自行运维,成本直接减少了 40%。
速度方面,得益于 PPIO 遍布全球的分布式云服务网络,无论用户身处何地,都能找到近距离的算力节点,获得 20 毫秒级的低延迟体验。PPIO 通过独特方式调用全国范围的算力节点,能为企业用户带来更弹性、更稳定、更划算的 AI 推理服务。
据了解,PPIO 在整个春节期间 ToB 方向的 DeepSeek 服务可用性做到了 99.9%,无 TPM 限制。其中关键就在于底层足够弹性。现阶段,PPIO 平台的日均 tokens 消耗量已经突破了 1300 亿,与 " 六小龙 " 日均 tokens 消耗量不相上下。
此外,在算法层面,PPIO 还提出 KV Cache 稀疏化压缩算法、Hydra Sampling 投机采样技术以及端到端 FP8 推理三大核心技术,进一步突破显存、算力和带宽对大模型推理性能的限制。由此,PPIO 能够迅速适配和优化各种开源大模型。比如,PPIO 算力云产品已为百川智能提供大规模 AI 推理服务。
" 只有当 AI Infra 公司能提供足够高性能和低成本的基础建设,让大量 AI 应用的收入足以覆盖所有的推理成本,才会迎来 AI 应用落地的大爆发,用户也会迎来 AI 应用的免费时代。"姚欣表示。
DeepSeek 振臂一挥之后,还需要全产业上下游通力合作,才能进一步加速大规模应用落地。
如今,值得关注的玩家纷纷站出来,承接流量的同时,更进一步推进新浪潮发生。AI Infra 玩家们的动作,还只是表现之一。
而随着越来越多产业伙伴加入,更庞大的需求和市场还在酝酿之中。
趋势转变之后,又是一个新开始。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡就分享完了,您有什么想法可以联系小编(郟君昊)。