今天小编(賁芳蕤)要和大家分享的是腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回,欢迎阅读~
首个基于混合 Mamba 架构的超大型推理模型来了!
就在刚刚,腾讯宣布推出自研深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。
对标 o1、DeepSeek R1 之外,值得关注的是,混元 T1 正式版采用的是 Hybrid-Mamba-Transformer 融合模式——
这是工业界首次将混合 Mamba 架构应用于超大型推理模型。
根据腾讯官方介绍,通过大规模强化学习,并结合数学、逻辑推理、科学和代码等理科难题的专项优化,混元 T1 正式版进一步提升了推理能力,与此前已上线腾讯元宝的混元 T1-preview 相比,综合效果明显提升。
在 MMLU-pro、CEval、AIME、Zebra Logic 等中英文知识、竞赛级数学,以及逻辑推理公开基准测试中,混元 T1 均有比肩 DeepSeek R1 和 OpenAI o1 的分数。
(表格中,其它模型评测指标来自官方评测结果,官方评测结果中没有的部分来自混元内部评测平台结果)
另外,在最新大模型竞技场中,混元 T1 正式版的基础模型 Turbo S 已经跻身全球 TOP 15。这意味着在其基础上的推理版本 T1 正式版理论上会有更强大的表现。
具体来说,混元 T1 正式版沿用了混元 Turbo S 的模型架构,采用的是 Hybrid-Mamba-Transformer 融合模式。
混元 Turbo S 是腾讯自研的快思考模型——
区别于 DeepSeek R1 等慢思考模型,Turbo S 更强调 " 秒回 ",即吐字速度更快,首字时延更低。
非传统 Transformer 架构的好处在于,能有效降低 Transformer 架构的计算复杂度,减少 KV-Cache 缓存占用,实现训练和推理成本的下降。
新的融合模式一方面发挥了 Mamba 高效处理长序列的能力,另一方面保留了 Transformer 擅长捕捉复杂上下文的优势,突破的传统 Transformer 架构在长文训练和推理成本方面面临的难题。
腾讯官方没有透露更多技术细节,但可以参考 Mamba-2 论文做一个简单的理解:
在 Mamba-2 中,研究团队发现,Transformer 中的注意力机制与 SSM(结构化状态空间模型)存在紧密的数学联系,两者都可以表示为可半分离矩阵(Semiseparable Matrices)的变换。
基于这个发现,Mamba-2 的作者提出了 磁碟(结构化状态空间二元性)理论,把 Transformer 和 Mamba 给打通了:
磁碟 可以将 Transformer 架构多年积累起来的优化方法引入 SSM。比如引入张量并行和序列并行,扩展到更大的模型和更长的序列;或是引入可变序列,以实现更快的微调和推理。
△混元 T1 正式版测评结果
目前,混元 T1 正式版已面向 API 用户,在腾讯云上线。
定价方面,输入价格为 1 元 / 百万 tokens,输出价格为 4 元 / 百万 tokens。
相较之下,DeepSeek R1 在标准时段(北京时间 8:30-00:30)的定价为 4 元 / 百万 tokens 输入,16 元 / 百万 tokens 输出。
文心大模型 X1 的定价则是 2 元 / 百万 tokens 输入,8 元 / 百万 tokens 输出。
也就是说,混元 T1 的价格仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。
体验入口也已释出:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
此前,混元深度思考模型 T1 Preview 和快思考模型 Turbo S,都很快在腾讯自家 C 端应用上线,包括腾讯元宝、腾讯文档、搜狗输入法、QQ 浏览器等等。
那么 T1 正式版什么时候能和普通用户见面?
腾讯方面给量子位的回应是:C 端未来可能更多通过元宝以及腾讯其他业务来服务。
感兴趣的话可以蹲一蹲了。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
最后一周!2025 年值得关注的 AIGC 企业产品 报名即将截止
下一个 AI" 国产之光 " 将会是谁?欢迎申报奖项!
本次评选结果将于 4 月 16 日中国 AIGC 产业峰会上公布。
一键星标
科技前沿进展每日见
关于腾讯押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回就分享完了,您有什么想法可以联系小编(賁芳蕤)。