Ospedali a rischio con trascrizioni AI inaffidabili

Un recente studio condotto da ricercatori di Cornell University e University of Washington ha rivelato che Whisper, il modello di trascrizione AI di OpenAI utilizzato in ambito medico, può generare informazioni false in circa l'1% dei casi. La ricerca, presentata alla conferenza ACM FAccT in Brasile, ha evidenziato come il sistema possa inventare frasi o condizioni mediche inesistenti durante le pause nel parlato.

Whisper è impiegato da Nabla, un'azienda che fornisce servizi di trascrizione medica a oltre 30.000 medici e 40 sistemi sanitari. Si stima che abbia già trascritto circa 7 milioni di conversazioni mediche. La diffusione di questo strumento solleva preoccupazioni sulla potenziale diffusione di informazioni errate nelle cartelle cliniche dei pazienti.

I ricercatori hanno analizzato campioni audio provenienti dal database AphasiaBank, focalizzandosi in particolare sulle trascrizioni di pazienti affetti da afasia, un disturbo del linguaggio caratterizzato da frequenti pause nel parlato. In questi casi, Whisper ha mostrato la tendenza a "riempire" i silenzi con frasi inventate, talvolta contenenti sentimenti violenti o espressioni prive di senso.

Whisper può inventare intere frasi durante i silenzi nelle registrazioni

Allison Koenecke, una delle ricercatrici coinvolte nello studio, ha condiviso esempi concreti di queste allucinazioni generate dall'AI. Tra le anomalie riscontrate, sono state rilevate anche frasi tipiche dei video su YouTube, come "Grazie per aver guardato!", probabilmente a causa del training del modello su un vasto dataset di trascrizioni video.

La risposta di OpenAI e le implicazioni future

OpenAI, tramite la portavoce Taya Christianson, ha dichiarato: "Prendiamo seriamente questo problema e stiamo lavorando continuamente per migliorare, inclusa la riduzione delle allucinazioni". L'azienda ha sottolineato che le politiche d'uso del loro API vietano l'utilizzo di Whisper in contesti decisionali ad alto rischio e che il modello open-source include raccomandazioni contro l'uso in domini ad alto rischio.

Questa scoperta solleva importanti questioni sull'affidabilità dell'intelligenza artificiale in ambito medico e sulla necessità di implementare rigorosi controlli di qualità prima di adottare tali tecnologie su larga scala nel settore sanitario.

Ospedali a rischio con trascrizioni AI inaffidabili

> Utilizzato da oltre 30.000 medici e 40 sistemi sanitari per migliorare l'assistenza e l'efficienza nella cura dei pazienti.

La risposta di OpenAI e le implicazioni future