高馬爾
一個信息發佈的網站

騰訊押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回

今天小編(賁芳蕤)要和大家分享的是騰訊押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回,歡迎閲讀~

首個基于混合 Mamba 架構的超大型推理模型來了!

就在剛剛,騰訊宣布推出自研深度思考模型混元 T1 正式版,并同步在騰訊雲官網上線。

對标 o1、DeepSeek R1 之外,值得關注的是,混元 T1 正式版采用的是 Hybrid-Mamba-Transformer 融合模式——

這是工業界首次将混合 Mamba 架構應用于超大型推理模型。

根據騰訊官方介紹,通過大規模強化學習,并結合數學、邏輯推理、科學和代碼等理科難題的專項優化,混元 T1 正式版進一步提升了推理能力,與此前已上線騰訊元寶的混元 T1-preview 相比,綜合效果明顯提升。

在 MMLU-pro、CEval、AIME、Zebra Logic 等中英文知識、競賽級數學,以及邏輯推理公開基準測試中,混元 T1 均有比肩 DeepSeek R1 和 OpenAI o1 的分數。

(表格中,其它模型評測指标來自官方評測結果,官方評測結果中沒有的部分來自混元内部評測平台結果)

另外,在最新大模型競技場中,混元 T1 正式版的基礎模型 Turbo S 已經跻身全球 TOP 15。這意味着在其基礎上的推理版本 T1 正式版理論上會有更強大的表現。

具體來説,混元 T1 正式版沿用了混元 Turbo S 的模型架構,采用的是 Hybrid-Mamba-Transformer 融合模式。

混元 Turbo S 是騰訊自研的快思考模型——

區别于 DeepSeek R1 等慢思考模型,Turbo S 更強調 " 秒回 ",即吐字速度更快,首字時延更低。

非傳統 Transformer 架構的好處在于,能有效降低 Transformer 架構的計算復雜度,減少 KV-Cache 緩存占用,實現訓練和推理成本的下降。

新的融合模式一方面發揮了 Mamba 高效處理長序列的能力,另一方面保留了 Transformer 擅長捕捉復雜上下文的優勢,突破的傳統 Transformer 架構在長文訓練和推理成本方面面臨的難題。

騰訊官方沒有透露更多技術細節,但可以參考 Mamba-2 論文做一個簡單的理解:

在 Mamba-2 中,研究團隊發現,Transformer 中的注意力機制與 SSM(結構化狀态空間模型)存在緊密的數學聯系,兩者都可以表示為可半分離矩陣(Semiseparable Matrices)的變換。

基于這個發現,Mamba-2 的作者提出了 磁碟(結構化狀态空間二元性)理論,把 Transformer 和 Mamba 給打通了:

磁碟 可以将 Transformer 架構多年積累起來的優化方法引入 SSM。比如引入張量并行和序列并行,擴展到更大的模型和更長的序列;或是引入可變序列,以實現更快的微調和推理。

混元 T1 正式版測評結果

目前,混元 T1 正式版已面向 API 用户,在騰訊雲上線。

定價方面,輸入價格為 1 元 / 百萬 tokens,輸出價格為 4 元 / 百萬 tokens。

相較之下,DeepSeek R1 在标準時段(北京時間 8:30-00:30)的定價為 4 元 / 百萬 tokens 輸入,16 元 / 百萬 tokens 輸出。

文心大模型 X1 的定價則是 2 元 / 百萬 tokens 輸入,8 元 / 百萬 tokens 輸出。

也就是説,混元 T1 的價格僅為 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。

體驗入口也已釋出:

https://llm.hunyuan.tencent.com/#/chat/hy-t1

此前,混元深度思考模型 T1 Preview 和快思考模型 Turbo S,都很快在騰訊自家 C 端應用上線,包括騰訊元寶、騰訊文檔、搜狗輸入法、QQ 浏覽器等等。

那麼 T1 正式版什麼時候能和普通用户見面?

騰訊方面給量子位的回應是:C 端未來可能更多通過元寶以及騰訊其他業務來服務。

感興趣的話可以蹲一蹲了。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

最後一周!2025 年值得關注的 AIGC 企業產品 報名即将截止

下一個 AI" 國產之光 " 将會是誰?歡迎申報獎項!

本次評選結果将于 4 月 16 日中國 AIGC 產業峰會上公布。

一鍵星标

科技前沿進展每日見

關于騰訊押注非Transformer!推理模型混合Mamba也能搞,深度思考也能秒回就分享完了,您有什麼想法可以聯系小編(賁芳蕤)。