Un team di ricercatori ha recentemente messo alla prova le capacità visive dei più avanzati modelli linguistici dotati di funzionalità visive (VLM), rivelando alcune importanti limitazioni. Lo studio, condotto da scienziati informatici dell'Università di Auburn e dell'Università dell'Alberta, ha testato quattro dei VLM più popolari: GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet e Claude-3.5 Sonnet.
Negli ultimi anni, i modelli linguistici di grandi dimensioni hanno fatto passi da gigante, incorporando nuove funzionalità come la capacità di elaborare input visivi. Tuttavia, questa ricerca solleva interrogativi sulla reale natura delle loro abilità visive.
Come per i sistemi biologici, un sistema visivo artificiale richiede due componenti principali: una "fotocamera" per catturare le immagini e un "cervello" per elaborarle. I ricercatori hanno scoperto che, mentre la parte di acquisizione delle immagini è altamente sviluppata, l'elaborazione dei dati risulta ancora in una fase iniziale.
Limitazioni nell'elaborazione visiva
I VLM si sono dimostrati efficaci nell'identificare oggetti o luoghi famosi in un'immagine, come il Taj Mahal. Tuttavia, mostrano difficoltà nel rispondere a domande più complesse sui dettagli dell'immagine, come contare il numero di bambini che si tengono per mano davanti al monumento.
Questo accade perché i modelli non sono stati addestrati specificamente a contare, ma piuttosto a riconoscere elementi come la posizione delle mani. Di conseguenza, a meno che non abbiano visto esempi simili durante l'addestramento, non sono in grado di fornire risposte accurate.
Per dimostrare queste limitazioni, i ricercatori hanno sottoposto ai VLM compiti visivi semplici per gli esseri umani, come contare il numero di cerchi sovrapposti o di anelli interconnessi in un'immagine. I risultati hanno evidenziato prestazioni scarse da parte di tutti e quattro i modelli testati.
Prestazioni limitate a scenari familiari
I VLM hanno ottenuto buoni risultati solo quando presentati con immagini simili a quelle su cui erano stati addestrati. Ad esempio, hanno mostrato difficoltà nel determinare il numero di anelli intrecciati quando erano più di cinque, poiché al di là dei cinque anelli olimpici, non avevano incontrato esempi simili durante l'addestramento.
Questa ricerca evidenzia che i modelli linguistici di grandi dimensioni hanno ancora molta strada da fare prima di poter elaborare le informazioni visive in modo paragonabile agli esseri umani. Le loro attuali capacità visive sembrano mancare di profondità e flessibilità nell'analisi di scene complesse o non familiari.
Lo studio sottolinea l'importanza di continuare a migliorare le capacità di elaborazione visiva dei VLM, al fine di renderli strumenti più affidabili e versatili in una vasta gamma di applicazioni che richiedono comprensione visiva avanzata.
Il desiderio di creare macchine in grado di "vedere" e "comprendere" il mondo visivo come gli esseri umani rappresenta un campo di innoventi ricercato per decenni. Dall'introduzione degli algoritmi di visione artificiale nei primi anni '60, quando Lawrence Roberts, uno dei pionieri dell'informatica, costruì una macchina in grado di dedurre la struttura tridimensionale di un cubo a partire da una sua immagine bidimensionale, il viaggio è stato lungo. L'evoluzione continua e incessante delle capacità di 'visione', pero, ha raggiunto un nuovo confine con l'introduzione degli ultimi modelli linguistici visivi (VLM).
L'aspetto curioso è il modo in cui i modelli apprendono a 'vedere'. Si basano largamente su reti neurali profonde, addestrate su enormi dataset di immagini preceduti da label che ne descrivono il contenuto. È interessante notare come il training di tali sistemi relaziona stretto alla disponibilità di dati ben annotati, un requisito non sempre facile da soddisfare considerando la varietà e la complessità delle immagini che caratterizzano il mondo reale.
"Nessuna macchina potrà mai rimpiazzare l'uomo finché non sarà in grado di rispondere alla domanda per quale motivo i bambini giocano" - Edwin Schlossberg.
Qui entra in gioco la sfida: come possono i VLM non solo 'vedere' ciò che è visibile, ma anche interpretare e interagire con il contesto delle immagini in modo simile a quanto farebbe un umano? Le abilità visive degli uomini sono intrecciate con esperienze e concetti astratti che permettono una flessibilità interpretativa molto difficile da replicare in un modello computazionale.
A tal fine, gli esperimenti condotti dagli studiosi servono a misurare fino a che punto queste macchine possano raggiungere una capacità di 'comprensione' visiva che si avvicini anche lontanamente a quella umana. E sebbene i progressi siano evidenti, i risultati dimostrano chiaramente come il cammino sia ancora lungo e pieno di insidie.
In definitiva, mentre le potenzialità dei VLM moderni sono indiscutibilmente impressionanti, essi costituiscono un vivace promemoria delle restrizioni e delle limitazioni attualmente presenti nei tentativi di emulare la percezione umana. Studi come quello recentemente condotto continuano ad estrarre preziosi insegnamenti che indirizzano le future direzioni di ricerca, una per tutte la necessità di sviluppare meccanismi di generalizzazione visiva più avanzati