OpenAI lancia la generazione di immagini con GPT-4o

La rivoluzione dell'immagine digitale compie un ulteriore passo avanti con l'integrazione diretta delle capacità generative all'interno di ChatGPT. OpenAI ha annunciato il lancio di "Images in ChatGPT", una funzionalità che permette agli utenti di creare immagini direttamente attraverso l'interfaccia della popolare piattaforma conversazionale, sfruttando il modello GPT-4o. Questa novità rappresenta un significativo cambiamento nel panorama dell'intelligenza artificiale generativa, dove la creazione visiva si fonde sempre più con l'interazione testuale, offrendo possibilità creative prima impensabili per l'utente medio.

Una nuova generazione di immagini intelligenti

Il sistema alla base di questa innovazione si discosta significativamente dai precedenti modelli di generazione visiva. A differenza di DALL-E e di altre tecnologie simili che utilizzano modelli di diffusione per creare immagini intere simultaneamente, "Images in ChatGPT" adotta un approccio autoregressivo, generando le immagini in modo sequenziale da sinistra a destra e dall'alto verso il basso, simile al processo di scrittura di un testo.

Questa differenza tecnica potrebbe essere alla base dei miglioramenti sostanziali nella qualità delle immagini prodotte. Gabriel Goh, responsabile della ricerca, ha definito questa innovazione "un cambiamento radicale rispetto ai modelli precedenti", sottolineando come il team abbia utilizzato la base "omnimodale" di GPT-4o, capace di generare qualsiasi tipo di contenuto, dal testo alle immagini, dall'audio al video.

Vantaggi concreti per la creatività quotidiana

Tra i principali progressi evidenziati da OpenAI c'è un significativo miglioramento nel cosiddetto "binding", ovvero la capacità di mantenere relazioni corrette tra attributi e oggetti. Mentre i precedenti modelli spesso confondevano colori e forme quando gli veniva chiesto di renderizzare più elementi (tipicamente tra 5 e 8), Images in ChatGPT può gestire correttamente fino a 15-20 oggetti senza confusione, rappresentando un salto di qualità in termini di precisione e affidabilità.

Un altro notevole miglioramento riguarda il rendering del testo. Chi ha utilizzato generatori di immagini IA sa quanto facilmente il testo possa apparire distorto o incomprensibile. Dopo mesi di perfezionamento, il team di OpenAI è riuscito a raggiungere una qualità del testo costantemente utilizzabile, sebbene permangano difficoltà con caratteri molto piccoli.

La tecnologia porta la conoscenza del mondo nell'equazione creativa

Democratizzazione della creatività visiva

Durante la presentazione della nuova funzionalità, Jackie Shannon, responsabile del prodotto multimodale di ChatGPT, ha evidenziato come il sistema porti la conoscenza del mondo nell'equazione creativa: "Se mi metto a disegnare un'immagine, lo faccio con il limite della mia abilità... ma anche con tutta la conoscenza del mondo che ho accumulato. Il modello porta la conoscenza mondiale nell'equazione, quindi quando chiedi un'immagine dell'esperimento del prisma di Newton, non devi spiegare cosa sia per ottenere un'immagine."

Le dimostrazioni hanno illustrato le capacità del sistema attraverso esempi pratici come diagrammi scientifici correttamente etichettati, fumetti multi-pannello con personaggi coerenti, poster informativi con testo accurato e applicazioni pratiche come la creazione di immagini con sfondo trasparente per adesivi, menu di ristoranti e loghi.

Disponibilità e limitazioni

La nuova funzionalità è disponibile per tutti i livelli di abbonamento: ChatGPT Plus, Pro, Team e anche per gli utenti della versione gratuita. Questi ultimi avranno limiti di utilizzo simili a quelli precedentemente applicati per DALL-E, che consentiva la generazione di "tre immagini al giorno", sebbene la portavoce Taya Christianson abbia precisato che questi limiti "potrebbero cambiare nel tempo in base alla domanda".

Nonostante i significativi miglioramenti qualitativi, il nuovo sistema richiede più tempo per generare immagini rispetto alle versioni precedenti. OpenAI suggerisce però che questo compromesso valga la pena: "Sebbene abbiamo certamente margini di miglioramento sulla latenza... la qualità di queste immagini, la capacità e la conoscenza del mondo compensano ampiamente i secondi aggiuntivi di attesa", ha affermato Shannon.

Sicurezza e proprietà dei contenuti

In un'epoca in cui la creazione di deepfake e altri usi inappropriati dell'IA generativa sollevano preoccupazioni crescenti, OpenAI ha posto particolare attenzione alle salvaguardie del sistema. Shannon ha specificato che lo strumento impedisce la rimozione di filigrane, blocca la generazione di deepfake a sfondo sessuale e rifiuta richieste di contenuti inappropriati.

Un elemento distintivo riguarda la questione della proprietà delle immagini generate. "Una caratteristica fondamentale di tutte le immagini generate da ChatGPT è che l'utente ne è proprietario e può utilizzarle liberamente entro i limiti delle nostre politiche di utilizzo", ha precisato Shannon, aggiungendo che tutte le immagini includeranno metadati standard C2PA per contrassegnarle come create da OpenAI.

Nonostante l'assenza di filigrane visive o indicatori che mostrino che le immagini sono generate dall'IA, l'azienda sta sviluppando strumenti interni per monitorare l'uso della tecnologia, pur riconoscendo che "nessun sistema è perfetto per questo tipo di cose, ma stiamo continuamente migliorando le nostre salvaguardie".