高馬爾
一個信息發佈的網站

一手實測文心X1/4.5:又強又全面!歪果網友瘋求英文版

今天小編(佼昌翰)要和大家分享的是一手實測文心X1/4.5:又強又全面!歪果網友瘋求英文版,歡迎閱讀~

文心一言兩周年,百度一口氣上新兩款模型,并且上來就是一個主題:免費。

這個消息一夜間在(原 Twitter)上引來大批歪果網友關注,相當炸裂。畫風是醬嬸兒的:

你們能不能把頁面也用英文展示一下?

有沒有英文 / 國際版啊?

可把玩不上的網友給急壞了。

畢竟,這次百度帶來的不僅有半個多月前承諾的新一代原生多模态基礎大模型文心大模型 4.5,能力更全⾯的深度思考模型文心大模型 X1也無預告突然同步上線。

兩款模型現已在文心一言官網上免費向用戶開放。

同時,在百度智能雲千帆大模型平台,現可直接調用文心 4.5 API,文心 X1 也即将上線:

文心 4.5 輸入 0.004 元 / 千 tokens,輸出 0.016 元 / 千 tokens;文心 X1 輸入 0.002 元 / 千 tokens,輸出 0.008 元 / 千 tokens。

看到新模型性能和這打了骨折的價格,歪果網友們更加坐不住,手動艾特奧特曼、OpenAI。

新模型發布,量子位童鞋按老規矩第一時間深入實測了一波,具體來看效果如何~

實測最新文心大模型

據介紹,文心 X1 是首個自主運用工具的深度思考模型,不僅理解、規劃、反思、進化能力更強,且支持多模态。

而文心 4.5,是百度自主研發的新一代原生多模态基礎大模型,通過多模态聯合建模實現協同優化,在圖片、音頻、視頻等多模态理解方面都很給力。

根據模型特點,我們對文心 X1 重點測試了中文知識問答、文學創作、工具調用和邏輯推理等能力;對文心 4.5 考驗其圖片理解、視頻分析能力。

文心大模型 X1

先從推理模型的拿手好戲——邏輯推開始測試。

來道曾讓不少網友頭疼的經典邏輯題熱熱身:

有兄弟二人,哥哥上午說實話,下午說謊話,而弟弟正好相反,上午說謊話,一到下午就說實話。

一個人問:你們誰是哥哥 ?

胖子說:我是哥哥。瘦子說:我是哥哥。

那個人又問:現在幾點了 ?

胖子說:快到中午了。瘦子說:已經過中午了。

請問:現在是上午還是下午?誰是哥哥?

文心 X1 下場解題,推理過程一目了然,第一次嘗試就成功了(答案:現在是上午,胖子是哥哥):

看來問題還是太簡單了,好好好,上難度。

下面這題傳說是愛因斯坦曾提出的一道高難度邏輯推理題,據說世界上只有 2% 的人能夠推出正确答案。

咱也不知道這傳言保不保真,就問題本身來看,的确很有意思:

着實有點沒想到,文心 X1 在這道題上也能成功答對。

随着題目難度提升,它的推理思考過程明顯變長,一番詳細分析後,不僅給出了正确答案 "德國人養魚",還成功正确推導出德國人住在綠色房子裡等更多信息。

邏輯推理強只是文心 X1 的一個方面,與其它推理模型相比,文心 X1 更大的特色在于能夠靈活調用各種工具

目前,X1 已⽀持⾼級搜索、⽂檔問答、圖⽚理解、AI 繪圖、代碼解釋器、⽹⻚鏈接讀取、 TreeMind 樹圖、百度學術檢索、商業信息查詢、加盟信息查詢等諸多⼯具。

借助這些工具,文心 X1 能生成包含圖片、表格、代碼等更豐富的多模态内容。

比如,當你詢問《紅樓夢》中主要人物關系時,它能自動調用高級聯網和代碼解釋器,幫你繪制圖表、生成配圖。

當然,上傳圖片或文檔讓它解析也可以。

随手上傳一種沒見過的蔬菜,它除了能正确回答出菜名,還自主補充了其營養價值、烹饪方法等更多信息,包括中藥養生價值、儲存方法這種細節。

測試還發現,復雜問題的規劃分析也是它的強項。

要是讓它寫一份 " 五月新疆伊犁深度漫遊指南 ",從交通、住宿到每天具體行程安排和預算,它都能幫你一并搞定。

最後關于文心大模型 X1,還有個特點值得一提,它的文本創作不僅觀點鮮明,創意寫作的想象力也讓人眼前一亮。

比如讓它用 " 紅樓體 " 分析 " 高山和大樹誰更自由 ",它還真編出了一個有模有樣的情景,belike:

文心大模型 4.5

接下來再康康新一代原生多模态基礎大模型文心 4.5。

文心 4.5 在多模态方面就更全能了,支持文檔、圖片理解,還能搞定音頻、視頻分析

你可以直接用語音和它聊天,實測方言也能聽懂。

各種梗圖,秒秒鍾 get 到意思:

對于視頻,文心 4.5 能準确識别視頻中的場景、畫面、物品等信息。目前支持單個最大 20MB 視頻分析。

除了放出新模型,百度這次在模型的實現方法上也透露了更多技術細節。

自主運用工具的深度思考模型

文心大模型 X1作為首個自主運用工具的深度思考模型,不僅在性能上對标 DeepSeek-R1,具備 " 長思維鏈 ",擅長中文知識問答、文學創作、邏輯推理等,而且增加了多模态能力和多工具調用,能理解和生成圖片,還能調用工具生成代碼、圖表等豐富内容。

上面我們的實測也可以看出它在這幾個方面的表現尤為出色。

具體到技術細節上,文心大模型 X1 背後的關鍵技術包括:

其一,遞進式強化學習訓練方法。即将學習任務分解成多個子任務,讓 AI 在難度相對較低或更簡單的階段中先學習到一定的技能或知識,再逐步提高任務難度,或者再将這些技能組合起來,以應對更復雜、更具挑戰性的環境。

X1 創新性地應用了遞進式強化學習方法,在創作、搜索、工具調用、推理等場景中全面提升模型的綜合應用能力。

其二,基于思維鏈和行動鏈的端到端訓練。針對深度搜索、工具調用等場景,根據結果反饋進行端到端模型訓練,能顯著提升訓練效果。

其三,多元統一的獎勵系統

研發人員為 X1 建立了統一的獎勵體系,融合多種類型的獎勵機制,為模型訓練提供了更加魯棒的反饋。

文心大模型 X1 的自我描述

文心大模型 4.5方面,值得關注的是 "原生多模态"。相較于非原生多模态模型,原生模型聯合預訓練能實現更深層次的模态融合,實現更強的模态互動、理解能力。

在此背後,研發團隊主要應用了以下技術:

FlashMask 動态注意力掩碼:加速大模型靈活注意力掩碼計算,能有效提升長序列建模能力和訓練效率,優化長文處理能力和多輪互動表現。

多模态異構專家擴展技術:根據模态特點構建模态異構專家,結合自适應模态感知損失函數,解決不同模态梯度不均衡問題,提升多模态融合能力。

時空維度表征壓縮技術:在時空維度對圖片和視頻的語義表征進行高效壓縮,大幅提升多模态數據訓練效率,增強了從長視頻中吸取世界知識的能力。

基于知識點的大規模數據構建技術:基于知識分級采樣、數據壓縮與融合、稀缺知識點定向合成技術,構建高知識密度預訓練數據,提升模型學習效率,大幅降低模型幻覺。

基于自反饋的 Post-training 技術:融合多種評價方式的自反饋迭代式後訓練技術,全面提升強化學習穩定性和魯棒性,大幅提升預訓練模型對齊人類意圖能力。

另外,為了減少模型幻覺,文心兩大新模型還有百度 RAG、iRAG 技術的加持。

RAG方面,百度研發了 " 理解 - 檢索 - 生成 " 協同優化的檢索增強技術,能夠生成準确率更高、時效性更好的答案。

iRAG 是百度自研的檢索增強文生圖技術,将百度搜索的億級圖片資源跟強大的基礎模型能力相結合,能生成遠勝于文生圖原生系統的超真實圖片。

文心一言生成百度堅決投入下一代基礎模型

在中國大模型舞台上,百度入局最早,也始終是最受國内外關注的玩家之一。

正如開頭所言,文心大模型兩大新模型上線,迅速引爆了海内外大模型關注者的測評熱情,影響力可見一斑。

文心大模型時間線

事實上,在 2024 年,文心大模型日均調用量實現了持續高速增長。根據最新百度 2024 年第四季度及全年财報,與 2023 年同期的 5000 萬次調用量相比,文心大模型日均調用量一年增長 33 倍,達到了 16.5 億。

在此背後,百度一直堅持壓強式、馬拉松式的研發投入。近十年累計研發投入超過 1800 億元。

百度創始人李彥宏也在百度 25 周年全員信中表示:

25 年來,我們始終走在技術的最前沿,始終相信技術創新才是百度的核心競争力,我們多年來一直把超過收入 20% 的資金投入到研發上,并且不遺餘力地嘗試把最前沿的技術產品化、商業化,讓更多的人從中受益,因為我們相信只有規模化的應用才能讓技術發揮它的價值。

目前,百度已經實現芯片層、框架層、模型層和應用層的全棧自研布局。此番,這種自研技術儲備也在模型 API 價格上體現出了優勢——

文心大模型 X1 API,輸入價格 0.002 元 / 千 tokens,輸出價格 0.008 元 / 千 tokens。與 DeepSeek R1 标準時段價格相比,價格便宜一半。

文心大模型 4.5 API,輸入價格 0.004 元 / 千 tokens,輸出價格 0.016 元 / 千 tokens,為 GPT-4.5 價格的 1%。

而今年後續,百度也已經被爆料接下來還有基礎模型方面的大動作:

開源方面,依據此前預告,百度将在 6 月 30 日正式開源文心大模型。

預計今年下半年,還将發布文心大模型 5.0。

2025 年,基礎模型在被預言 " 碰壁 " 之後,卻又迎來一波更新的新高潮。而随着模型越來越強,同時又越來越便宜,大模型應用的爆發,已經蓄勢待發。

現在,百度亮出了新的王牌,為這一趨勢增添了新的變數。

—    —

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

關于一手實測文心X1/4.5:又強又全面!歪果網友瘋求英文版就分享完了,您有什麼想法可以聯系小編(佼昌翰)。