高馬爾
一個信息發佈的網站

DeepSeek逼出谷歌新推理模型:40分優勢超GPT4.5登頂競技場,支持原生多模态,但依然敗給了“竹竿問題”

今天小編(甄正浩)要和大家分享的是DeepSeek逼出谷歌新推理模型:40分優勢超GPT4.5登頂競技場,支持原生多模态,但依然敗給了“竹竿問題”,歡迎閲讀~

又雙叒,搶在 OpenAI 直播之前,谷歌 Gemini 2.5 系列來了。

首個版本 Pro Experimental 一登場就搶下大模型競技場第一名,并且整整比 GPT-4.5 高出 40 分

Gemini 2.5 同樣是推理模型,用 Jeff Dean 的説法是:

這是我們最智能的模型,具有令人印象深刻的高級推理和編碼能力。

Be like,給出一段提示詞:

幫我制作一款吸引人的無盡跑酷遊戲。螢幕上要有關鍵操作説明。使用 p5js,不要用 HTML。我喜歡像素風格的恐龍和有趣的背景。

1 分鍾左右,就能得到:

谷歌介紹,相較于 Gemini 2.0 Flash Thinking 這個谷歌首個推理模型,Gemini 2.5 在基礎模型和後訓練技術上都有改進。

不僅是在大模型競技場上一舉拿下高分,在各種推理、數學、科學、編程基準上,Gemini 2.5 Pro 都表現出色,屬于是編程能跟 Claude 3.7 Sonnet 掰手腕,數學能跟 Grok 3 相媲美。

更詳細測試結果看這裏:

Gemini 2.5 Pro 的上下文視窗是 1M tokens,并且支持原生多模态:可以理解龐大數據集并處理來自不同信息源的復雜問題,包括文本、音頻、影像、視頻,甚至是整個代碼庫。

在推理能力之外,谷歌官方還強調了一把 Gemini 2.5 Pro 的編程性能:

2.5 pro 擅長創造視覺上引人注目的 Web 應用程式和智能體代碼。

谷歌 DeepMind 研究員們也釋出了更多案例,比如把 " 六邊形内旋轉小球 " 這事整得更加酷炫:

Jeff Dean 則興奮地放出了一個編程 + 數學的用例,還説:

我記起了小時候第一次了解到曼德布羅特集時的興奮之情。

(曼德布羅特集:一種在復平面上形成的分形集合)

p.s. 距離谷歌上新 Gemini 2.0 家族,也不過一個多月時間,怕不是讓 DeepSeek 給逼急了(doge)。

目前,Gemini 2.5 Pro 已經面向 Gemini Advanced 付費用户開放,開放人員也可以在 Google AI Studio 中試用。谷歌表示,未來幾周内還将在 Vertex AI 上推出該模型。

不過,當我們拿最新大模型難題" 竹竿問題 "測試 Gemini 2.5 Pro 時,它并沒能順利通關。

試玩地址:

http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

參考鏈接:

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

最後一周!2025 年值得關注的 AIGC 企業產品 報名即将截止

下一個 AI" 國產之光 " 将會是誰?歡迎申報獎項!

本次評選結果将于 4 月 16 日中國 AIGC 產業峰會上公布。

一鍵星标

科技前沿進展每日見

關于DeepSeek逼出谷歌新推理模型:40分優勢超GPT4.5登頂競技場,支持原生多模态,但依然敗給了“竹竿問題”就分享完了,您有什麼想法可以聯系小編(甄正浩)。