智東西(公眾號:zhidxcom)
編譯 | 陳佳
編輯 | 程茜

智東西4月3日消息,今日谷歌DeepMind開源發(fā)布Gemma 4系列模型,根據(jù)官方博客,這是谷歌迄今為止最智能的開放模型,專為高級推理和智能體工作流而設計,實現(xiàn)了單位參數(shù)下前所未有的智能水平。

其中,31B 模型目前在行業(yè)標準的Arena AI文本排行榜上名列全球開放模型第3位,在GPQA Diamond在這一高難度科學推理基準上取得85.7%的準確率,僅次于Qwen3.5 27B的85.8%。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Gemma 4系列模型在多項基準測試中的表現(xiàn)對比(圖源:blog.google)

自第一代模型發(fā)布以來,Gemma的下載量已突破4億次,并衍生出超十萬種社區(qū)變體。

Gemma 4系列是基于與Gemini 3相同的技術體系構建的,支持圖像與視頻(以幀序列形式)及文本輸入,小模型版本進一步支持音頻理解。該系列共四款型號,E2B、E4B、26B混合專家模型(MoE)與31B 稠密模型,覆蓋從智能手機、樹莓派到專業(yè)工作站的完整部署場景,全部采用Apache 2.0協(xié)議開放,開發(fā)者可自由修改、再分發(fā)并用于商業(yè)產(chǎn)品。

有開發(fā)者在社區(qū)評論中說:“基準數(shù)據(jù)一直都在,但沒人愿意在一個谷歌隨時可能改規(guī)則的模型上建立產(chǎn)品。現(xiàn)在它才真的可以部署了?!?/p>

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Gemma 4官方模型集合頁面(圖源:Hugging Face)

在硬件覆蓋上,Gemma 4采取“移動優(yōu)先”的設計理念,同時兼顧全棧部署需求。E2B與E4B專為邊緣設備優(yōu)化,可在手機、樹莓派、NVIDIA Jetson Orin Nano上完全離線運行,延遲趨近于實時;26B與31B模型的非量化bfloat16權重可在單張80GB NVIDIA H100 GPU上運行,量化版本則支持消費級GPU本地部署。

谷歌DeepMind CEO德米斯·哈薩比斯(Demis Hassabis)將Gemma 4稱為“在各自參數(shù)量級下性能最優(yōu)的全球開源模型”。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲谷歌DeepMind CEO 德米斯·哈薩比斯(Demis Hassabis)在X平臺的推文

Hugging Face聯(lián)合創(chuàng)始人克萊門特·德朗格(Clément Delangue)將Gemma 4模型發(fā)布視為“本地AI正在迎來關鍵發(fā)展階段”,并認為開放模型與可本地部署能力將成為未來AI的重要方向。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Hugging Face聯(lián)合創(chuàng)始人克萊門特·德朗格(Clément Delangue)在X平臺的推文

此次Gemma 4的發(fā)布,被多家外媒視為谷歌重返開源主戰(zhàn)場,美國模型陣營迎來關鍵補位。

Hugging Face地址:https://huggingface.co/collections/google/gemma-4
官方技術博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

一、4大模型配置,性能表現(xiàn)超越參數(shù)規(guī)模達其20倍的模型

在官方技術博客中,谷歌說Gemma 4實現(xiàn)了單位參數(shù)下前所未有的智能水平,能在更低計算開銷下實現(xiàn)更強性能。

該系列并非延續(xù)單純擴大參數(shù)規(guī)模的路徑,而是通過架構設計與訓練優(yōu)化的系統(tǒng)性改進,使開發(fā)者以更低硬件成本獲得接近前沿模型的能力。

Gemma 4提供四種規(guī)模配置:E2B、E4B、26B混合專家模型(MoE)以及31B稠密模型。

31B 模型目前在行業(yè)標準的Arena AI文本排行榜上名列全球開放模型第3位,26B模型則名列第6位。在榜單中,Gemma 4的表現(xiàn)甚至超越了規(guī)模達其20倍的模型。對于開發(fā)者而言,這種單位參數(shù)智能水平的新高度意味著只需極低的硬件開銷,即可獲得前沿模型級別的能力。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Gemma 4 在Arena用戶偏好排行榜中的參數(shù)量對比(左)與用戶偏好(右)(圖源:blog.google)

架構層面,26B MoE模型采用“按需激活參數(shù)”的設計,推理時僅激活約3.8B活躍參數(shù),在顯著降低算力需求的同時保持高性能輸出;E2B與E4B小模型則引入Per-Layer Embeddings(PLE)機制,為解碼器每一層引入獨立的embedding表,從而增強各層的表達能力并提升參數(shù)利用效率,使模型在不顯著增加計算負擔的前提下獲得更強的表征能力。

在注意力機制上,Gemma 4交替使用局部滑動窗口注意力與全局注意力機制,并在最后一層采用全局注意力,在保證長上下文能力的同時有效控制內(nèi)存消耗。

在上下文處理能力上,邊緣機型配備128K的上下文窗口,而更大型號則提供256K的上下文窗口,允許用戶在一次提示中處理存儲庫或長文檔。

這套架構優(yōu)化的實際效果已在具體應用中得到驗證。谷歌在博客中列舉了兩個典型案例:INSAIT基于Gemma系列開發(fā)了保加利亞語優(yōu)先大模型BgGPT,耶魯大學則與谷歌合作推進Cell2Sentence-Scale項目,探索癌癥治療新路徑。這些案例基于對Gemma模型的微調(diào)與適配,體現(xiàn)出Gemma在垂直領域應用中的潛力。

二、原生支持圖像、視頻輸入,可處理140種語言

Gemma 4不再局限于文本生成,而是從底層架構出發(fā),將多模態(tài)理解與智能體(Agent)調(diào)用能力原生整合進同一模型體系。

全系四款模型均原生支持圖像與視頻輸入,其中視頻以幀序列形式處理,在OCR、圖表理解等視覺任務中表現(xiàn)較為突出;E2B與E4B進一步集成原生音頻能力,支持語音識別與理解。

在視覺處理精度上,模型支持可變分辨率與可配置token預算,官方提供70至1120 token等多檔配置:低預算適用于分類與視頻幀理解等速度敏感場景,高預算則用于OCR、文檔解析與細粒度圖像分析。

Gemma 4將函數(shù)調(diào)用(function calling)與結(jié)構化輸出能力直接訓練進模型本身,而非依賴提示工程引導。模型可原生輸出結(jié)構化JSON,支持多工具調(diào)用與多輪任務執(zhí)行,使其能夠穩(wěn)定參與自動化工作流,有效降低開發(fā)者構建智能體系統(tǒng)的工程成本。

在代碼能力上,Gemma 4支持高質(zhì)量離線代碼生成,可在本地環(huán)境運行,被定位為“本地優(yōu)先”的AI編程助手。在多步推理與復雜指令執(zhí)行任務中,其表現(xiàn)較上一代顯著提升。此外,模型原生支持超過140種語言。

三、采用Apache 2.0許可證開源,可在手機上離線運行

技術能力之外,Gemma 4的另一核心變化在于開放策略的調(diào)整。谷歌此次全面采用Apache 2.0許可證,取代此前的自定義授權方式,允許開發(fā)者自由修改、再分發(fā)及商業(yè)化部署,賦予其對模型、數(shù)據(jù)與基礎設施更高的控制權。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Apache License 2.0開源協(xié)議核心條款說明(圖源:devmandan)

在開發(fā)與部署層面,Gemma 4強調(diào)“從實驗到生產(chǎn)”的完整鏈路支持。開發(fā)者可通過Google AI Studio(支持31B與26B MoE)與AI Edge Gallery(支持E4B與E2B)快速體驗模型能力,也可在Android Studio中結(jié)合Agent模式進行移動應用開發(fā)。

在工具鏈適配上,Gemma 4發(fā)布首日即支持Hugging Face(含Transformers、TRL、Transformers.js、Candle)、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM和NeMo、LM Studio、Unsloth、SGLang等主流框架,模型權重通過Hugging Face、Kaggle與Ollama開放下載。

此外,Gemma 4針對NVIDIA GPU(涵蓋Jetson至Blackwell架構)、AMD GPU(ROCm生態(tài))以及谷歌自研Trillium與Ironwood TPU進行了深度優(yōu)化,實現(xiàn)跨硬件平臺的高效適配。云端方面,可通過Vertex AI、Cloud Run、GKE及TPU加速服務等多種方案擴展至生產(chǎn)規(guī)模。

四、實測多模態(tài)復雜任務效果一般

知名AI開發(fā)者Simon Willison在實際測試后指出,Gemma 4在“單位參數(shù)能力”(intelligence per parameter)上的表現(xiàn)尤為突出,這一指標反映出模型在有限參數(shù)規(guī)模下實現(xiàn)更高性能的能力。他認為,相較于持續(xù)擴大模型體量,如何在既有參數(shù)約束下提升性能,正逐漸成為當前模型優(yōu)化的重要方向。

Willison以“騎自行車的鵜鶘”這一復雜視覺生成任務為例,對不同規(guī)模模型進行對比測試。結(jié)果顯示,從2B到26B參數(shù)規(guī)模,模型生成質(zhì)量呈現(xiàn)出明顯的遞進關系:小模型在復雜結(jié)構表達上仍存在不足,而中等規(guī)模模型已能夠生成語義較為完整的圖像。這一現(xiàn)象表明,盡管小模型在效率上取得進展,但在多模態(tài)復雜任務中仍對模型規(guī)模存在一定依賴。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Willison以“騎自行車的鵜鶘”對該模型從2B到4B再到26B-A4B的測試

Willison提到,該系列模型已不僅限于文本處理,還支持圖像及視頻(以幀序列形式)輸入與音頻。其中,E2B與E4B等小參數(shù)模型已具備語音理解能力。不過,從實際開發(fā)環(huán)境來看,這些能力尚未完全落地,本地推理框架對音頻等輸入形式的支持仍在完善過程中。

Hugging Face在Gemma 4技術解讀中指出,與以往主要依賴云端部署的超大模型不同,Gemma 4系列覆蓋從2B到31B的多種參數(shù)規(guī)模,使其既可應用于數(shù)據(jù)中心,也能夠運行在本地設備乃至邊緣硬件上,體現(xiàn)出模型向“端側(cè)可用”的發(fā)展趨勢。

Gemma 4通過結(jié)構優(yōu)化與機制創(chuàng)新,使小參數(shù)模型在保持資源消耗可控的前提下實現(xiàn)能力提升。以E2B、E4B為代表的小模型,不僅支持多模態(tài)輸入,還通過結(jié)構優(yōu)化提升參數(shù)利用效率,使其在保持較低資源消耗的同時具備較強任務能力。

五、編程、高難度推理表現(xiàn),接近Qwen3.5

從Arena榜單的對比結(jié)果來看,Gemma 4在文本類任務中的整體能力較上一代實現(xiàn)了全面提升。無論是在寫作、編程、復雜指令執(zhí)行,還是多輪對話與長文本理解等場景中,其表現(xiàn)均明顯優(yōu)于Gemma 3和Gemma 2,并在多個維度接近當前開源模型的第一梯隊。

具體來看,Gemma 4在“專家級文本理解”和“代碼生成”等高難度任務上提升尤為顯著,同時在創(chuàng)意寫作、復雜提示處理等場景中也表現(xiàn)出更穩(wěn)定的輸出質(zhì)量。這種全維度外擴的能力曲線,意味著該模型不再只在個別任務上優(yōu)化,而是在通用文本能力上實現(xiàn)整體提升。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Gemma系列模型在Arena文本類別排名對比(圖源:Arena.ai)

根據(jù)獨立AI評測媒體ai.rs對Gemma 4、Qwen與Llama的對比評測分析,此次升級被認為是開源模型領域“單代提升幅度最大的一次”,其進步并非漸進式優(yōu)化,而是跨越式躍升。

尤其在編程能力上,Gemma 4的Codeforces ELO評分相較上一代Gemma 3的110分(接近勉強可用水平),大幅提升至2150分(接近競技編程專家級)。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲Gemma 4編碼能力測試(圖源:ai.rs)

ai.rs進一步指出,在高難度推理與代碼生成等關鍵任務上,Gemma 4整體表現(xiàn)達到當前開源模型中的領先水平。

獨立AI基準測試機構Artificial Analysis發(fā)布的GPQA Diamond排行榜顯示,谷歌Gemma 4 31B模型在高難度科學推理基準上取得85.7%的準確率,位列榜單前列,與Qwen3.5 27B(85.8%)表現(xiàn)接近。

該基準包含198道由博士級專家編寫的“防搜索”問題,涵蓋生物、化學和物理領域,要求模型具備真正的研究生級科學推理能力,而非依賴外部知識檢索。相比之下,人類領域?qū)<业钠骄鶞蚀_率約為65%。

值得注意的是,Gemma 4系列在參數(shù)效率上表現(xiàn)出色:其26B和31B變體在得分與參數(shù)量的對比圖中落入高效象限,證明Gemma 4以相對較小的參數(shù)規(guī)模實現(xiàn)了高性能。

最小僅2B!谷歌最強開源模型登場,免費商用,手機就能跑

▲GPQA Diamond基準測試結(jié)果(柱狀圖)及得分與參數(shù)量關系(散點圖)(圖源:Artificial Analysis)

結(jié)語:從“能用”到“可部署”, 效率、成本與生態(tài)的綜合較量

從此次Gemma 4的發(fā)布來看,其意義并不只在于單一指標的提升,而是性能、部署方式與授權策略的同步變化。Gemma 4一方面通過架構優(yōu)化提升參數(shù)利用效率,小模型能力持續(xù)逼近中等規(guī)模模型,另一方面多模態(tài)能力與本地部署能力同步推進,在部分場景下減少對云端算力的依賴。

從更宏觀的視角來看,開源大模型競爭已不再局限于性能指標,而是轉(zhuǎn)向效率、成本與生態(tài)的綜合較量。誰能在“好用、可部署、可擴展”之間取得平衡,誰才更有可能在下一階段占據(jù)主導地位。