高马尔
一个信息发布的网站

腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回

今天小编(賁芳蕤)要和大家分享的是腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回,欢迎阅读~

首个基于混合 Mamba 架构的超大型推理模型来了!

就在刚刚,腾讯宣布推出自研深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。

对标 o1、DeepSeek R1 之外,值得关注的是,混元 T1 正式版采用的是 Hybrid-Mamba-Transformer 融合模式——

这是工业界首次将混合 Mamba 架构应用于超大型推理模型。

根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元 T1 正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元 T1-preview 相比,综合效果明显提升。

在 MMLU-pro、CEval、AIME、Zebra Logic 等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元 T1 均有比肩 DeepSeek R1 和 OpenAI o1 的分数。

(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)

另外,在最新大模型竞技场中,混元 T1 正式版的基础模型 Turbo S 已经跻身全球 TOP 15。这意味着在其基础上的推理版本 T1 正式版理论上会有更强大的表现。

具体来说,混元 T1 正式版沿用了混元 Turbo S 的模型架构,采用的是 Hybrid-Mamba-Transformer 融合模式。

混元 Turbo S 是腾讯自研的快思考模型——

区别于 DeepSeek R1 等慢思考模型,Turbo S 更强调 " 秒回 ",即吐字速度更快,首字时延更低。

非传统 Transformer 架构的好处在于,能有效降低 Transformer 架构的计算复杂度,减少 KV-Cache 缓存占用,实现训练和推理成本的下降。

新的融合模式一方面发挥了 Mamba 高效处理长序列的能力,另一方面保留了 Transformer 擅长捕捉复杂上下文的优势,突破的传统 Transformer 架构在长文训练和推理成本方面面临的难题。

腾讯官方没有透露更多技术细节,但可以参考 Mamba-2 论文做一个简单的理解:

在 Mamba-2 中,研究团队发现,Transformer 中的注意力机制与 SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。

基于这个发现,Mamba-2 的作者提出了 磁碟(结构化状态空间二元性)理论,把 Transformer 和 Mamba 给打通了:

磁碟 可以将 Transformer 架构多年积累起来的优化方法引入 SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。

混元 T1 正式版测评结果

目前,混元 T1 正式版已面向 API 用户,在腾讯云上线。

定价方面,输入价格为 1 元 / 百万 tokens,输出价格为 4 元 / 百万 tokens。

相较之下,DeepSeek R1 在标准时段(北京时间 8:30-00:30)的定价为 4 元 / 百万 tokens 输入,16 元 / 百万 tokens 输出。

文心大模型 X1 的定价则是 2 元 / 百万 tokens 输入,8 元 / 百万 tokens 输出。

也就是说,混元 T1 的价格仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。

体验入口也已释出:

https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型 T1 Preview 和快思考模型 Turbo S,都很快在腾讯自家 C 端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ 浏览器等等。

那么 T1 正式版什么时候能和普通用户见面?

腾讯方面给量子位的回应是:C 端未来可能更多通过元宝以及腾讯其他业务来服务。

感兴趣的话可以蹲一蹲了。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

最后一周!2025 年值得关注的 AIGC 企业产品 报名即将截止

下一个 AI" 国产之光 " 将会是谁?欢迎申报奖项!

本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。

一键星标

科技前沿进展每日见

关于腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回就分享完了,您有什么想法可以联系小编(賁芳蕤)。