今天小編(袁曼雁)要和大家分享的是谷歌宣布開源多模态大模型Gemma3 媲美DeepSeek,歡迎閲讀~
【CNMO 科技消息】日前,谷歌首席執行官 Sundar Pichai 宣布開源最新多模态大模型 Gemma-3,主打低成本與高性能。Gemma-3 提供四種不同參數規模的版本,分别為 10 億、40 億、120 億和 270 億參數。即便在參數量最大的 270 億版本中,僅需一張 H100 顯卡即可實現高效推理。相比之下,同類模型若要達到類似效果,至少需要提升 10 倍算力。因此,Gemma-3 也是目前性能最強的小參數模型之一。
在性能測試方面,根據 LMSYS ChatbotArena 的盲測數據,Gemma-3 的表現僅次于 DeepSeek 的 R1-671B,優于 OpenAI 的 o3-mini 和 Llama3-405B 等知名模型。
在架構設計上,Gemma-3 延續了前兩代的通用解碼器 Transformer 架構,并進行了多項創新和優化。為解決長上下文帶來的内存占用問題,Gemma-3 采用了局部和全局自注意力層交錯的架構:每 5 個局部層之間插入 1 個全局層,局部層的跨度僅為 1024 個 token。由于只有全局層負責處理長上下文,局部層僅關注 1024 個 token 的小跨度,從而有效降低了内存占用。
多模态能力是 Gemma-3 的一大技術亮點。該模型能夠同時處理文本和影像,并集成了定制版的 SigLIP 視覺編碼器。這一編碼器基于 Vision Transformer 架構,通過 CLIP 損失的變體進行訓練。
為了評估 Gemma-3 的性能,谷歌在 MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR 等多個主流平台進行了測試。結果顯示,Gemma-3 在多模态任務中表現出色,例如在 DocVQA、InfoVQA 和 TextVQA 等任務中,其性能顯著優于前代模型。在長文本處理方面,270 億參數版本的 Gemma-3 在 RULER128K 任務上達到了 66.0% 的準确率。
關于谷歌宣布開源多模态大模型Gemma3 媲美DeepSeek就分享完了,您有什麼想法可以聯系小編(袁曼雁)。