Google DeepMind continua a spingere i confini della generazione di immagini tramite intelligenza artificiale con il lancio di Imagen 3 Flash, commercialmente denominato Nano Banana 2, un modello che ridisegna il bilanciamento tra velocità computazionale e qualità visiva nel panorama sempre più competitivo dei sistemi di AI generativa per immagini. Il rilascio arriva a distanza di pochi mesi dalla presentazione di Nano Banana Pro, che aveva introdotto capacità di controllo creativo di livello professionale, e si inserisce in un contesto in cui la rapidità di inferenza è diventata un fattore discriminante tanto quanto la qualità dell'output. Il nuovo modello si candida a diventare lo strumento di riferimento per flussi di lavoro che richiedono iterazione rapida su larga scala, dai team di advertising digitale ai professionisti della comunicazione visiva.
Sul piano architetturale, Nano Banana 2 integra la base di conoscenza enciclopedica di Gemini Flash con le capacità di rendering visivo sviluppate per la linea Pro, abilitando quello che nel gergo del settore viene definito grounding: la capacità del modello di ancorare la generazione a informazioni fattuali aggiornate, comprese immagini e dati provenienti dalla ricerca web in tempo reale. Questo significa che il sistema non si limita a produrre output plausibili, ma può rendere con precisione soggetti specifici, edifici storici, loghi o configurazioni geografiche reali, riducendo sensibilmente il rischio di allucinazioni visive — termine con cui si indica la generazione di dettagli inesatti o inventati.
Tra le funzionalità tecnicamente più rilevanti spicca la subject consistency, ovvero la capacità di mantenere la coerenza visiva di fino a cinque personaggi distinti e quattordici oggetti all'interno di un singolo workflow. Per chi lavora nello storytelling visivo, nella produzione di storyboard o nella creazione di contenuti seriali, si tratta di un salto qualitativo concreto: la continuità dei personaggi tra una scena e l'altra era storicamente uno dei punti deboli dei modelli diffusion-based. Altrettanto significativo il supporto a risoluzioni che vanno da 512 pixel fino al formato 4K, con gestione flessibile dei ratio, coprendo formati verticali per i social media fino agli sfondi widescreen per produzioni broadcast.
Il rendering del testo all'interno delle immagini è un'altra area dove Nano Banana 2 mostra progressi tangibili. La generazione di testo leggibile e tipograficamente accurato in immagini sintetiche è stata a lungo una sfida aperta per i modelli di AI generativa, con risultati spesso inaccettabili per applicazioni commerciali come mockup di marketing o biglietti di auguri. Il nuovo modello integra anche funzionalità di traduzione e localizzazione del testo direttamente all'interno delle immagini, aprendo scenari applicativi per campagne pubblicitarie internazionali.
Sul fronte della distribuzione, il modello viene integrato trasversalmente nell'ecosistema Google: nell'app Gemini andrà a sostituire Nano Banana Pro come modello predefinito per le modalità Fast, Thinking e Pro, mentre gli abbonati ai piani AI Pro e Ultra conserveranno l'accesso alla versione Pro per attività specializzate. La disponibilità si estende a Google Search in AI Mode e tramite Google Lens, a Google AI Studio e alle API Gemini — dove il modello è accessibile in anteprima — a Vertex AI per i clienti enterprise cloud, a Flow per la produzione video e a Google Ads per la generazione automatizzata di asset creativi nelle campagne pubblicitarie. La distribuzione geografica copre 141 nuovi Paesi e territori con supporto per otto lingue aggiuntive.
Particolarmente rilevante dal punto di vista della trasparenza e della governance dei contenuti sintetici è l'evoluzione dell'approccio di provenance adottato da Google DeepMind. Il sistema SynthID, watermark digitale impercettibile a occhio nudo ma rilevabile algoritmicamente, viene ora affiancato dagli standard C2PA Content Credentials (Coalition for Content Provenance and Authenticity), un protocollo interoperabile sostenuto da un consorzio industriale che include Adobe, Microsoft e molti altri. La combinazione dei due strumenti consente non solo di identificare se un'immagine è stata generata da AI, ma di ricostruire il contesto e le modalità della sua creazione, un aspetto cruciale nel quadro dell'AI Act europeo che impone obblighi di trasparenza per i contenuti generati da sistemi di intelligenza artificiale.
La scelta di portare le funzionalità Pro a velocità Flash non è solo una questione di ottimizzazione tecnica, ma riflette una precisa strategia di democratizzazione dell'accesso agli strumenti di AI generativa avanzata. Rendere disponibili capacità come il grounding su fonti reali e la consistenza dei soggetti in un modello ad alta velocità abbassa la soglia d'ingresso per sviluppatori e piccole realtà produttive che non possono permettersi latenze elevate nei loro pipeline di contenuto. Con la verifica C2PA in arrivo anche nell'app Gemini, l'ecosistema si avvicina a uno standard di tracciabilità che potrebbe diventare riferimento per l'intero settore, in un momento in cui la fiducia nei contenuti visivi digitali è una questione sempre più urgente a livello istituzionale e sociale.