Mark Hamilton, studente di dottorato in ingegneria elettrica e informatica del MIT e affiliato al Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) del MIT, ha sviluppato un approccio innovativo per far comprendere il linguaggio delle macchine osservando la comunicazione animale. Il suo obiettivo primario è stato quello di sviluppare un sistema che potesse imparare il linguaggio umano "da zero".
L'ispirazione è nata in modo curioso mentre guardava il film "La marcia dei pinguini". Una scena in particolare, in cui un pinguino inciampa sul ghiaccio, ha suscitato una riflessione chiave: "C'è stata una scena in cui un pinguino cade mentre attraversa il ghiaccio e emette un gemito affaticato mentre si rialza. Guardando quel momento, era quasi ovvio che quel gemito sostituisse una parolaccia", racconta Hamilton. Da questo, nacque l'idea di utilizzare segnali audio e video per apprendere il linguaggio.
Il modello sviluppato, chiamato DenseAV, mira a imparare il linguaggio prevedendo ciò che vede e ciò che sente. Per esempio, se sente "cuoci la torta a 180 gradi", probabilmente sta vedendo una torta o un forno. Dopo aver addestrato DenseAV con milioni di video, il team ha iniziato a investigare quali pixel il modello selezionava in risposta a determinati suoni. Ciò ha permesso di scoprire cosa 'pensa' l'algoritmo che le parole significhino.
Interessante è stato notare che quando l'algoritmo sente il suono di un cane che abbaia, si mette a cercare un cane nel video. "Questo ci ha spinto a voler capire se DenseAV distinguere tra la parola 'cane' e l'abbaiare di un cane", spiega Hamilton. L'esplorazione ha portato alla scoperta che DenseAV ha una sorta di "cervello a due facce", concentrandosi da un lato sul linguaggio e dall'altro sui suoni.
Un importante campo di applicazione di questa ricerca è l'apprendimento dai video pubblicati quotidianamente su Internet, incluse le videolezioni. "Speriamo che DenseAV possa aiutarci a capire anche le lingue senza forma scritta, come quelle dei delfini o delle balene", aggiunge Hamilton. "Infine, speriamo che questo metodo possa essere usato per scoprire pattern tra altri tipi di segnali, come i suoni sismici che la terra emette e la sua geologia".
Per raggiungere questo obiettivo, DenseAV utilizza due principali componenti per trattare dati audio e visivi separatamente. Ciò previene che il modello 'imbrogli', forzandolo a riconoscere gli oggetti e a creare caratteristiche audio e visive dettagliate e significative. Il team ha ulteriormente addestrato DenseAV su AudioSet, che include 2 milioni di video di YouTube, e ha creato nuovi dataset per testare quanto bene il modello possa collegare suoni e immagini. In questi test, DenseAV ha superato altri modelli di punta.
La sfida maggiore è stata adattare l'architettura a grandi transformer che possono facilmente trascurare dettagli fini. Promuovere la concentrazione del modello su questi dettagli è stata una sfida significativa. Guardando avanti, il team mira a creare sistemi che possano apprendere da grandi quantità di dati video o solo audio, cruciali per nuovi domini.
David Harwath, professore assistente di informatica all'Università del Texas a Austin, non coinvolto nel lavoro, ha commentato: "DenseAV compie significativi progressi verso lo sviluppo di metodi che possono imparare a risolvere queste attività semplicemente osservando il mondo attraverso la vista e il suono".
Ulteriori autori del progetto includono Andrew Zisserman, professore di ingegneria della visione computazionale all'Università di Oxford; John R. Hershey, ricercatore di percezione AI di Google; e William T. Freeman, professore di ingegneria elettrica e informatica al MIT e investigatore principale al CSAIL. Maggiori dettagli dello studio sono disponibili su arXiv.
Fonte: MIT News. Questa storia è stata ripubblicata per gentile concessione del MIT.