Nuovo algoritmo impara le lingue osservando i video

Nuovo algoritmo impara le lingue osservando i video

> Mark Hamilton, dottorando al MIT in ingegneria elettrica e informatica e affiliato al CSAIL, mira a utilizzare le macchine per comprendere come comunicano gli animali. Per raggiungere questo obiettivo, ha deciso di creare prima un sistema che possa apprendere la lingua umana "da zero".

Mark Hamilton, studente di dottorato in ingegneria elettrica e informatica del MIT e affiliato al Laboratorio di Informatica e Intelligenza Artificiale (CSAIL) del MIT, ha sviluppato un approccio innovativo per far comprendere il linguaggio delle macchine osservando la comunicazione animale. Il suo obiettivo primario è stato quello di sviluppare un sistema che potesse imparare il linguaggio umano "da zero".

L'ispirazione è nata in modo curioso mentre guardava il film "La marcia dei pinguini". Una scena in particolare, in cui un pinguino inciampa sul ghiaccio, ha suscitato una riflessione chiave: "C'è stata una scena in cui un pinguino cade mentre attraversa il ghiaccio e emette un gemito affaticato mentre si rialza. Guardando quel momento, era quasi ovvio che quel gemito sostituisse una parolaccia", racconta Hamilton. Da questo, nacque l'idea di utilizzare segnali audio e video per apprendere il linguaggio.

Il modello sviluppato, chiamato DenseAV, mira a imparare il linguaggio prevedendo ciò che vede e ciò che sente. Per esempio, se sente "cuoci la torta a 180 gradi", probabilmente sta vedendo una torta o un forno. Dopo aver addestrato DenseAV con milioni di video, il team ha iniziato a investigare quali pixel il modello selezionava in risposta a determinati suoni. Ciò ha permesso di scoprire cosa 'pensa' l'algoritmo che le parole significhino.

Interessante è stato notare che quando l'algoritmo sente il suono di un cane che abbaia, si mette a cercare un cane nel video. "Questo ci ha spinto a voler capire se DenseAV distinguere tra la parola 'cane' e l'abbaiare di un cane", spiega Hamilton. L'esplorazione ha portato alla scoperta che DenseAV ha una sorta di "cervello a due facce", concentrandosi da un lato sul linguaggio e dall'altro sui suoni.

Un importante campo di applicazione di questa ricerca è l'apprendimento dai video pubblicati quotidianamente su Internet, incluse le videolezioni. "Speriamo che DenseAV possa aiutarci a capire anche le lingue senza forma scritta, come quelle dei delfini o delle balene", aggiunge Hamilton. "Infine, speriamo che questo metodo possa essere usato per scoprire pattern tra altri tipi di segnali, come i suoni sismici che la terra emette e la sua geologia".

Per raggiungere questo obiettivo, DenseAV utilizza due principali componenti per trattare dati audio e visivi separatamente. Ciò previene che il modello 'imbrogli', forzandolo a riconoscere gli oggetti e a creare caratteristiche audio e visive dettagliate e significative. Il team ha ulteriormente addestrato DenseAV su AudioSet, che include 2 milioni di video di YouTube, e ha creato nuovi dataset per testare quanto bene il modello possa collegare suoni e immagini. In questi test, DenseAV ha superato altri modelli di punta.

La sfida maggiore è stata adattare l'architettura a grandi transformer che possono facilmente trascurare dettagli fini. Promuovere la concentrazione del modello su questi dettagli è stata una sfida significativa. Guardando avanti, il team mira a creare sistemi che possano apprendere da grandi quantità di dati video o solo audio, cruciali per nuovi domini.

David Harwath, professore assistente di informatica all'Università del Texas a Austin, non coinvolto nel lavoro, ha commentato: "DenseAV compie significativi progressi verso lo sviluppo di metodi che possono imparare a risolvere queste attività semplicemente osservando il mondo attraverso la vista e il suono".

Ulteriori autori del progetto includono Andrew Zisserman, professore di ingegneria della visione computazionale all'Università di Oxford; John R. Hershey, ricercatore di percezione AI di Google; e William T. Freeman, professore di ingegneria elettrica e informatica al MIT e investigatore principale al CSAIL. Maggiori dettagli dello studio sono disponibili su arXiv.

Fonte: MIT News. Questa storia è stata ripubblicata per gentile concessione del MIT.

Logo AiBay