Gemma 4: i modelli open più capaci per il peso

Nel panorama in rapida evoluzione dei modelli linguistici open source, Google DeepMind ha compiuto un passo significativo con il lancio di Gemma 4, la nuova famiglia di modelli aperti progettata per ragionamento avanzato e workflow agentici. Costruita sulla stessa architettura di ricerca che alimenta Gemini 3, questa release segna un momento importante per l'ecosistema open AI: quattro modelli distinti per diverse esigenze hardware, tutti distribuiti sotto licenza Apache 2.0, che garantisce piena flessibilità commerciale senza restrizioni d'uso. Il dato più eloquente sull'adozione della famiglia Gemma è quello relativo alla comunità di sviluppatori: oltre 400 milioni di download dall'avvio della prima generazione e più di 100.000 varianti create dal cosiddetto "Gemmaverse".

L'aspetto tecnicamente più rilevante di Gemma 4 riguarda l'efficienza computazionale, ovvero il rapporto tra intelligenza e numero di parametri. Il modello da 31B (miliardi di parametri) denso occupa attualmente la terza posizione nella classifica mondiale dei modelli aperti sull'Arena AI text leaderboard, mentre il modello da 26B a Mixture of Experts (MoE) si colloca al sesto posto. L'architettura MoE è particolarmente rilevante: durante l'inferenza, questo modello attiva soltanto 3,8 miliardi dei suoi parametri totali, garantendo una velocità di generazione token notevolmente superiore rispetto a modelli densi di dimensioni equivalenti, con vantaggi diretti su latenza e costi computazionali.

La famiglia si articola in quattro varianti pensate per hardware eterogenei: E2B (Effective 2B), E4B (Effective 4B), 26B MoE e 31B Dense. I modelli più grandi — i cui pesi non quantizzati in bfloat16 si adattano a una singola GPU NVIDIA H100 da 80GB — sono ottimizzati per ricercatori e sviluppatori che operano su workstation avanzate, mentre versioni quantizzate consentono l'esecuzione locale su GPU consumer per applicazioni come coding assistant e workflow agentici. Il modello 31B riesce a superare in benchmark modelli con un numero di parametri fino a 20 volte superiore, una metrica che evidenzia progressi concreti nel campo dell'efficienza architetturale.

Sul fronte edge computing, i modelli E2B e E4B rappresentano forse l'aspetto più inedito dell'intera release. Sviluppati in stretta collaborazione con il team Google Pixel e con partner hardware come Qualcomm Technologies e MediaTek, questi modelli operano completamente offline con latenza quasi nulla su dispositivi come smartphone, Raspberry Pi e NVIDIA Jetson Orin Nano. L'obiettivo dichiarato è ridefinire l'utilità dei modelli on-device, privilegiando capacità multimodali e integrazione ecosistemica rispetto al puro conteggio di parametri. Gli sviluppatori Android possono già sperimentare flussi agentici tramite l'AICore Developer Preview, in forward-compatibility con Gemini Nano 4.

Il modello Gemma 4 da 31B occupa la terza posizione mondiale tra i modelli open source nell'Arena AI leaderboard, superando in benchmark sistemi con un numero di parametri fino a 20 volte maggiore.

Sul piano delle capacità multimodali, Gemma 4 integra nativamente l'elaborazione di video e immagini a risoluzioni variabili, con performance rilevanti in task come OCR e analisi di grafici. I modelli edge aggiungono anche l'audio input nativo per il riconoscimento vocale. La context window raggiunge i 128K token per i modelli edge e i 256K per quelli di maggiori dimensioni: una finestra contestuale così ampia consente di processare interi repository di codice o documenti estesi in un singolo prompt, un vantaggio concreto per applicazioni di RAG (Retrieval-Augmented Generation) e analisi documentale complessa.

Dal punto di vista del supporto multilingue, Gemma 4 è stato addestrato su oltre 140 lingue, una scelta che riflette l'ambizione di democratizzare l'accesso a modelli di qualità frontier anche per mercati non anglofoni. Casi come BgGPT — il modello bulgaro-first sviluppato da INSAIT — e la collaborazione con Yale University su Cell2Sentence-Scale per l'identificazione di nuovi percorsi nella terapia oncologica dimostrano il potenziale di fine-tuning specifico per dominio. Questi esempi mostrano come modelli aperti e ben ottimizzati possano abilitare ricerca scientifica ad alto impatto anche fuori dai grandi centri tech statunitensi, un punto di particolare interesse per l'ecosistema europeo.

La scelta della licenza Apache 2.0 risponde a feedback espliciti della community degli sviluppatori e rappresenta un segnale importante anche in chiave di sovranità digitale, tema sempre più rilevante nel contesto dell'AI Act europeo. A differenza di licenze più restrittive adottate da altri player del settore, Apache 2.0 garantisce controllo completo su dati, infrastruttura e modelli, consentendo deployment sia on-premises sia cloud in conformità con normative stringenti come il GDPR. Per le organizzazioni pubbliche e le imprese che operano in settori regolamentati, questo aspetto non è trascurabile, poiché consente di soddisfare requisiti di trasparenza e accountability richiesti dai sistemi ad alto rischio classificati dall'AI Act.

L'ecosistema di tool compatibili con Gemma 4 al lancio è particolarmente esteso: Hugging Face (con supporto per Transformers, TRL e Transformers.js), vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM e NeMo, LM Studio, Unsloth, SGLang, Keras, oltre a piattaforme cloud come Vertex AI, Cloud Run e GKE su Google Cloud. La compatibilità nativa con stack come ROCm di AMD e i TPU Trillium e Ironwood di Google elimina di fatto la dipendenza da un singolo vendor hardware, un elemento che gli sviluppatori considerano sempre più strategico.

La traiettoria evolutiva di Gemma solleva interrogativi interessanti per il settore: fino a che punto l'ottimizzazione dell'intelligenza per parametro potrà continuare a scalare, e quali saranno le implicazioni per la distribuzione di capacità AI su miliardi di dispositivi mobili? Con la disponibilità di modelli capaci di ragionamento complesso e function-calling nativo direttamente su smartphone e dispositivi IoT, le prossime sfide si sposteranno probabilmente dal training all'inferenza distribuita, dalla competizione sui benchmark alla creazione di applicazioni agentiche affidabili in contesti reali. La Gemma 4 Good Challenge su Kaggle, aperta alla community globale, offre un primo banco di prova per misurare fino a dove questa accessibilità tecnologica potrà tradursi in impatto sociale concreto.

Gemma 4: i modelli open più capaci per il peso

> Google DeepMind lancia Gemma 4, nuova famiglia di modelli open source con architettura avanzata, licenza Apache 2.0 e oltre 400 milioni di download dalla prima generazione.