Cuffie AI permettono di ascoltare una persona in mezzo alla folla guardandola

Un gruppo di ricercatori dell'Università di Washington ha sviluppato un innovativo sistema di intelligenza artificiale capace di isolare e riprodurre la voce di una persona specifica selezionata dall'utente, che indossa degli auricolari, semplicemente osservandola per tre-cinque secondi. Questa tecnologia, presentata in dettaglio durante la conferenza ACM CHI sui fattori umani nei sistemi informatici svoltasi il 14 maggio a Honolulu, consente di ascoltare chiaramente solo la voce della persona "iscritta" anche quando l'utente si muove in ambienti rumorosi o non si trova più di fronte al relatore.

Il sistema, denominato "Target Speech Hearing" (TSH), è composto da cuffie acusticamente isolanti convenzionali dotate di microfoni binaurali. L'innovativo software di apprendimento automatico implementato apprende i modelli vocali della persona selezionata per focalizzarsi unicamente sulla sua voce, escludendo tutti gli altri suoni ambientali. L'elaborazione del suono avviene attraverso un computer incorporato nelle cuffie.

Shyam Gollakota, professore alla Paul G. Allen School of Computer Science & Engineering e autore senior dello studio, spiega: "L'obiettivo di questo progetto è modificare la percezione uditiva tramite l'intelligenza artificiale, su misura per le preferenze di chi indossa le cuffie. Questo permette di ascoltare chiaramente un'unica fonte sonora anche in contesti affollati e rumorosi."

Per utilizzare il sistema TSH, l'utente deve semplicemente premere un pulsante e dirigere il proprio sguardo verso il parlante desiderato. Le onde sonore della voce del parlante raggiungono i microfoni ai lati delle cuffie, permettendo al sistema di sincronizzarsi con quella specifica voce, grazie anche a un margine di tolleranza di 16 gradi.

I test condotti su 21 partecipanti hanno mostrato che la chiarezza della voce "iscritta" è stata valutata, in media, quasi il doppio rispetto a quella dell'audio non filtrato. Attualmente, il TSH può "iscrivere" una sola voce alla volta e richiede che non ci siano altre voci forti nella stessa direzione del parlante target. Se la qualità del suono non è soddisfacente, è possibile effettuare una nuova "iscrizione" per migliorare la chiarezza.

Il team di ricerca, che include anche Bandhav Veluri, Malek Itani e Tuochao Chen, dottorandi alla Allen School, e Takuya Yoshioka, direttore della ricerca presso AssemblyAI, sta lavorando per estendere questa tecnologia anche agli auricolari e agli apparecchi acustici.

Ulteriori dettagli su questa ricerca sono disponibili nell'articolo di Bandhav Veluri et al, intitolato "Look Once to Hear: Target Speech Hearing with Noisy Examples", pubblicato nei Proceedings of the CHI Conference on Human Factors in Computing Systems (2024).