Meta introduce Chameleon, un modello multimodale di fusione precoce

I ricercatori di intelligenza artificiale di Meta hanno sviluppato un modello multimodale chiamato Chameleon, avente lo scopo di competere con sistemi analoghi come il Gemini di Google. Questo nuovo sistema, basato su una struttura di fusione precoce, è stato descritto in un articolo pubblicato sul server di preprint arXiv.

A differenza della maggior parte degli altri sistemi che trattano dati multimodali separatamente nella fase iniziale dell'elaborazione per poi cercare associazioni nella fase finale, il modello di fusione precoce di Chameleon permette di integrare diversi tipi di input sin dall'inizio. I ricercatori di Meta hanno convertito le immagini in token simili a come i modelli di linguaggio trasformano le parole. Hanno inoltre introdotto un vocabolario unificato di token provenienti da diverse fonti come immagini, codice o testo, consentendo di effettuare elaborazioni trasformative con tipologia mista di dati di input.

Chameleon si distingue per essere un modello end-to-end, eliminando quindi la necessità di decoder per immagini. Per il suo funzionamento, il team ha sviluppato tecniche di allenamento innovative che comprendono un'apprendimento in due fasi e l'utilizzo di un enorme insieme di dati, precisamente circa 4,4 trilioni di testi, immagini o coppie di token intercalati. Il sistema è stato allenato utilizzando 7 miliardi e successivamente 34 miliardi di parametri, totalizzando 5 milioni di ore su GPU ad alta velocità.

Secondo quanto riferito dai ricercatori, Chameleon è capace di accettare input solo testuali o solo visivi, o una combinazione di entrambi, fornendo risposte e associazioni con una precisione superiore rispetto ai concorrenti.

Meta introduce Chameleon, un modello multimodale di fusione precoce

> Ricercatori di Meta, l'azienda proprietaria di Facebook, Instagram, WhatsApp e molti altri prodotti, hanno progettato e realizzato un modello multimodale per competere con Gemini di Google.