DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

今天小编(郜萌運)要和大家分享的是DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本,欢迎阅读~

DeepSeek 新注意力机制论文一出，再次引爆讨论热度。

依然是熟悉的画风，熟悉的味道——

那边马斯克疯狂烧了 20 万张卡训出 Grok 3，这厢 DeepSeek 重点关注的依然是压缩计算和推理成本。

具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为NSA（Native Sparse Attention）。

目的很明确：解决大模型上下文建模中，标准注意力机制造成的计算成本高昂的问题。

效果也很明显：

实验表明，在解码 64k 上下文时，基于 softmax 架构的注意力计算占到总延迟的 70%-80%。而在不影响性能的前提下，NSA 在 64k 上下文的解码、前向传播和反向传播中均实现了显著加速。

其中前向传播速度最高可提升 9 倍，反向传播速度最高可提升 6 倍，解码速度提升可达 11.6 倍。

正如不少网友提到的，NSA 意味着 DeepSeek 找到了优化注意力的方法，可以用更少的算力更加高效地训练大模型，并且，他们还把这些 " 秘籍 " 公开了出来。

刚刚加入 OpenAI 不久的 ViT 核心作者 Lucas Beyer 也不禁开麦：粉了粉了。

另一点受到关注的是，这篇论文的作者可以说是 DeepSeek 系列大模型原班人马，梁文锋本人亦在其列——

论文还是梁文锋亲自传上 arXiv 的。

来看论文细节。

NSA 的核心方法包括：

动态分层稀疏策略

粗粒度 Token 压缩

细粒度 Token 选择

整体框架上，NSA 是用更紧凑的键值对替代原始注意力中的键值对，通过压缩、选择和滑动視窗（sliding window）三种映射策略得到优化注意力输出，保持高稀疏率。

采取分层设计的好处是：

减少计算量的同时，能有效避免信息丢失，是模型在处理长序列时既高效又精准。

能够在保证全局上下文感知的同时，精确捕捉局部信息，提升模型的表现。

可根据任务需求和上下文动态调整稀疏程度

具体到算法设计上，粗粒度 Token 压缩通过将连续的 Token 聚合成块级表示，可以捕获全局语义信息，同时减少注意力的计算负担。

细粒度 Token 选择从序列中选择最重要的 Token，保留关键的局部信息。

滑动視窗则避免了局部模式的过度优势——在注意力机制中，局部模式往往会主导学习过程，阻止模型有效地从压缩和选择 Token 中学习。

为了实现以上创新，DeepSeek 官方还强调了两方面的关键工作：

硬體对齐系统：针对张量核心利用率和内存访问优化块级稀疏注意力，确保均衡的算术强度。

训练感知设计：通过高效算法和向后运算符实现稳定的端到端训练。

研究人员用 27B 参数规模的模型进行了实验，结果显示，全注意力机制和 NSA 在预训练损失方面，都表现出了稳定的收敛性，并且 NSA 实现了更低的损失值。

在包含知识、推理和编码能力的多个通用基准测试中，与全注意力模型相比，NSA 模型性能不降反超，在推理任务 DROP 中提升尤为明显。

长上下文方面，64k 上下文的 " 大海捞针 " 测试里，NSA 完美过关。

在需要复杂长下文推理的各项任务中，NSA 的表现也基本超过了包括全注意力模型在内的基线模型。

而在思维链推理评估中，通过知识蒸馏和监督微调，在 8k 和 16k 上下文設定下，AIME 任务中 NSA-R 的得分均超过了全注意力模型。

这表明，NSA 预训练的稀疏注意力模式能有效捕捉长距离逻辑依赖，且其硬體对齐设计可支持不断增加的推理深度。

效率方面，在 8-GPU A100 系统上，NSA 的训练加速效果会随上下文长度的增加而增强。在 64k 上下文长度时，前向传播速度最高可提升 9 倍，反向传播速度最高可提升 6 倍，解码速度提升可达 11.6 倍。

有意思的是，在马斯克推出 Grok 3 炸场之时，不少人感慨：" 大力出奇迹 " 在大模型训练里仍然奏效——

在 Grok 3 成为大模型竞技场首个突破 1400 分模型的背后，是惊人的 10 万卡（后来扩展到 20 万）H100 集群。

但现在，DeepSeek 为代表的效率派们显然在引发另一种方向上的思考：通往 AGI 的路，可以更高效，更本地化，更人人可用。

论文地址：

https://arxiv.org/abs/2502.11089

关于DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本就分享完了，您有什么想法可以联系小编(郜萌運)。