腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回

今天小编(賁芳蕤)要和大家分享的是腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回,欢迎阅读~

首个基于混合 Mamba 架构的超大型推理模型来了！

就在刚刚，腾讯宣布推出自研深度思考模型混元 T1 正式版，并同步在腾讯云官网上线。

对标 o1、DeepSeek R1 之外，值得关注的是，混元 T1 正式版采用的是 Hybrid-Mamba-Transformer 融合模式——

这是工业界首次将混合 Mamba 架构应用于超大型推理模型。

根据腾讯官方介绍，通过大规模强化学习，并结合数学、逻辑推理、科学和代码等理科难题的专项优化，混元 T1 正式版进一步提升了推理能力，与此前已上线腾讯元宝的混元 T1-preview 相比，综合效果明显提升。

在 MMLU-pro、CEval、AIME、Zebra Logic 等中英文知识、竞赛级数学，以及逻辑推理公开基准测试中，混元 T1 均有比肩 DeepSeek R1 和 OpenAI o1 的分数。

（表格中，其它模型评测指标来自官方评测结果，官方评测结果中没有的部分来自混元内部评测平台结果）

另外，在最新大模型竞技场中，混元 T1 正式版的基础模型 Turbo S 已经跻身全球 TOP 15。这意味着在其基础上的推理版本 T1 正式版理论上会有更强大的表现。

具体来说，混元 T1 正式版沿用了混元 Turbo S 的模型架构，采用的是 Hybrid-Mamba-Transformer 融合模式。

混元 Turbo S 是腾讯自研的快思考模型——

区别于 DeepSeek R1 等慢思考模型，Turbo S 更强调 " 秒回 "，即吐字速度更快，首字时延更低。

非传统 Transformer 架构的好处在于，能有效降低 Transformer 架构的计算复杂度，减少 KV-Cache 缓存占用，实现训练和推理成本的下降。

新的融合模式一方面发挥了 Mamba 高效处理长序列的能力，另一方面保留了 Transformer 擅长捕捉复杂上下文的优势，突破的传统 Transformer 架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节，但可以参考 Mamba-2 论文做一个简单的理解：

在 Mamba-2 中，研究团队发现，Transformer 中的注意力机制与 SSM（结构化状态空间模型）存在紧密的数学联系，两者都可以表示为可半分离矩阵（Semiseparable Matrices）的变换。

基于这个发现，Mamba-2 的作者提出了磁碟（结构化状态空间二元性）理论，把 Transformer 和 Mamba 给打通了：

磁碟可以将 Transformer 架构多年积累起来的优化方法引入 SSM。比如引入张量并行和序列并行，扩展到更大的模型和更长的序列；或是引入可变序列，以实现更快的微调和推理。

△混元 T1 正式版测评结果

目前，混元 T1 正式版已面向 API 用户，在腾讯云上线。

定价方面，输入价格为 1 元 / 百万 tokens，输出价格为 4 元 / 百万 tokens。

相较之下，DeepSeek R1 在标准时段（北京时间 8:30-00:30）的定价为 4 元 / 百万 tokens 输入，16 元 / 百万 tokens 输出。

文心大模型 X1 的定价则是 2 元 / 百万 tokens 输入，8 元 / 百万 tokens 输出。

也就是说，混元 T1 的价格仅为 DeepSeek R1 的四分之一，是文心大模型 X1 的一半。

体验入口也已释出：

https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前，混元深度思考模型 T1 Preview 和快思考模型 Turbo S，都很快在腾讯自家 C 端应用上线，包括腾讯元宝、腾讯文档、搜狗输入法、QQ 浏览器等等。

那么 T1 正式版什么时候能和普通用户见面？

腾讯方面给量子位的回应是：C 端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

最后一周！2025 年值得关注的 AIGC 企业产品报名即将截止

下一个 AI" 国产之光 " 将会是谁？欢迎申报奖项！

本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。

一键星标

科技前沿进展每日见

关于腾讯押注非Transformer！推理模型混合Mamba也能搞，深度思考也能秒回就分享完了，您有什么想法可以联系小编(賁芳蕤)。