今天小编(袁曼雁)要和大家分享的是谷歌宣布开源多模态大模型Gemma3 媲美DeepSeek,欢迎阅读~
【CNMO 科技消息】日前,谷歌首席执行官 Sundar Pichai 宣布开源最新多模态大模型 Gemma-3,主打低成本与高性能。Gemma-3 提供四种不同参数规模的版本,分别为 10 亿、40 亿、120 亿和 270 亿参数。即便在参数量最大的 270 亿版本中,仅需一张 H100 显卡即可实现高效推理。相比之下,同类模型若要达到类似效果,至少需要提升 10 倍算力。因此,Gemma-3 也是目前性能最强的小参数模型之一。
在性能测试方面,根据 LMSYS ChatbotArena 的盲测数据,Gemma-3 的表现仅次于 DeepSeek 的 R1-671B,优于 OpenAI 的 o3-mini 和 Llama3-405B 等知名模型。
在架构设计上,Gemma-3 延续了前两代的通用解码器 Transformer 架构,并进行了多项创新和优化。为解决长上下文带来的内存占用问题,Gemma-3 采用了局部和全局自注意力层交错的架构:每 5 个局部层之间插入 1 个全局层,局部层的跨度仅为 1024 个 token。由于只有全局层负责处理长上下文,局部层仅关注 1024 个 token 的小跨度,从而有效降低了内存占用。
多模态能力是 Gemma-3 的一大技术亮点。该模型能够同时处理文本和影像,并集成了定制版的 SigLIP 视觉编码器。这一编码器基于 Vision Transformer 架构,通过 CLIP 损失的变体进行训练。
为了评估 Gemma-3 的性能,谷歌在 MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR 等多个主流平台进行了测试。结果显示,Gemma-3 在多模态任务中表现出色,例如在 DocVQA、InfoVQA 和 TextVQA 等任务中,其性能显著优于前代模型。在长文本处理方面,270 亿参数版本的 Gemma-3 在 RULER128K 任务上达到了 66.0% 的准确率。
关于谷歌宣布开源多模态大模型Gemma3 媲美DeepSeek就分享完了,您有什么想法可以联系小编(袁曼雁)。