L'integrazione dell'intelligenza artificiale generativa nei motori di ricerca sta sollevando questioni critiche sulla sicurezza delle informazioni mediche online. Google ha rimosso alcune delle sue AI Overviews – sintesi generate automaticamente che compaiono in cima ai risultati di ricerca – dopo che un'indagine del Guardian ha rivelato la diffusione di informazioni sanitarie false e fuorvianti che potrebbero mettere a rischio la salute degli utenti. Il caso solleva interrogativi urgenti sull'affidabilità dei Large Language Models quando applicati a domini ad alto rischio come quello medico, evidenziando il divario tra le promesse di Google riguardo alla qualità delle sue sintesi AI e la realtà documentata dai ricercatori e dagli esperti sanitari.
Il problema più grave identificato riguardava le query sui test di funzionalità epatica. Quando gli utenti cercavano informazioni sui valori normali degli esami del fegato, il sistema di AI Overviews forniva dati numerici privi di contesto, senza considerare variabili fondamentali come nazionalità, sesso, etnia o età del paziente. Gli esperti hanno definito questa situazione "pericolosa" e "allarmante", poiché i valori presentati dall'AI potevano differire drasticamente da quelli effettivamente considerati normali dalla comunità medica. Il rischio concreto era che pazienti con gravi patologie epatiche potessero interpretare erroneamente i propri risultati come normali e decidere di non presentarsi agli appuntamenti di follow-up.
Vanessa Hebditch, direttrice delle comunicazioni e politiche del British Liver Trust, ha evidenziato la complessità del problema: "Un test di funzionalità epatica è una raccolta di diversi esami del sangue. Comprendere i risultati e decidere i passi successivi è complesso e implica molto più del semplice confronto di numeri". Le AI Overviews presentavano liste di test in grassetto, rendendo facile per i lettori non cogliere che quei numeri potrebbero non essere nemmeno appropriati per il loro specifico esame. Ancora più grave, i riassunti generati dall'AI non avvertivano che alcuni pazienti possono ottenere risultati apparentemente normali pur avendo gravi malattie epatiche che richiedono assistenza medica immediata.
Dopo la pubblicazione dell'indagine, Google ha rimosso le AI Overviews per le ricerche specifiche sui valori normali dei test epatici. Tuttavia, il Guardian ha scoperto che digitando leggere variazioni delle query originali – come "lft reference range" o "lft test reference range" – il sistema continuava a generare sintesi AI. Questo solleva questioni fondamentali sull'approccio caso per caso alla moderazione dei contenuti generati automaticamente, piuttosto che affrontare le limitazioni strutturali dei modelli di linguaggio nel dominio medico.
La vicenda assume particolare rilevanza considerando la posizione dominante di Google, che detiene il 91% del mercato globale dei motori di ricerca. Sue Farrington, presidente del Patient Information Forum che promuove informazioni sanitarie evidence-based, ha sottolineato che milioni di adulti nel mondo già faticano ad accedere a informazioni mediche affidabili. "È fondamentale che Google indirizzi le persone verso informazioni sanitarie solide e ricercate, provenienti da organizzazioni sanitarie fidate", ha affermato, evidenziando che la rimozione di singoli casi problematici non affronta la questione più ampia dell'affidabilità delle AI Overviews in ambito sanitario.
L'indagine ha identificato altri casi in cui le sintesi AI fornivano informazioni che esperti hanno descritto come "completamente sbagliate" e "davvero pericolose", riguardanti oncologia e salute mentale. Interrogata sul perché questi esempi non fossero stati rimossi, Google ha risposto che collegavano a fonti note e rispettabili e informavano gli utenti quando era importante cercare consulenza specialistica. Un portavoce ha dichiarato: "Il nostro team interno di clinici ha esaminato quanto condiviso con noi e ha riscontrato che in molti casi le informazioni non erano inaccurate ed erano supportate da siti web di alta qualità".
Questa posizione evidenzia una tensione fondamentale nello sviluppo di sistemi AI per informazioni mediche: la distinzione tra accuracy tecnica – il modello riporta informazioni presenti nelle sue fonti – e safety clinica, che richiede comprensione del contesto, personalizzazione e consapevolezza delle conseguenze di informazioni parziali o decontestualizzate. I Large Language Models, addestrati su vasti corpus testuali, eccellono nell'aggregazione e sintesi di informazioni ma mancano della capacità di giudizio clinico che richiede la valutazione di fattori individuali del paziente.
Google ha affermato che le AI Overviews vengono mostrate solo per query per cui l'azienda ha alta confidenza nella qualità delle risposte, e che misura e rivede costantemente la qualità delle sintesi attraverso diverse categorie di informazioni. Tuttavia, come ha osservato Matt Southern, senior writer per Search Engine Journal: "Le AI Overviews appaiono sopra i risultati classificati. Quando l'argomento è la salute, gli errori hanno un peso maggiore". La posizione privilegiata di queste sintesi nella pagina dei risultati conferisce loro un'autorità implicita che può essere particolarmente pericolosa quando le informazioni sono incomplete o fuorvianti.
Il caso solleva questioni più ampie sul deployment di sistemi AI generativa in domini ad alto rischio senza framework di validazione adeguati. Mentre l'AI Act europeo classifica i sistemi AI utilizzati in ambito sanitario come ad alto rischio, richiedendo valutazioni rigorose prima della commercializzazione, le AI Overviews di Google operano in una zona grigia: non sono dispositivi medici ma forniscono informazioni che influenzano decisioni sanitarie. La mancanza di trasparenza sui dataset di training, sulle metodologie di valutazione e sui meccanismi di controllo qualità rende difficile per le autorità regolatorie e gli utenti valutare l'affidabilità di questi sistemi.
La vicenda evidenzia anche i limiti del prompt engineering e del fine-tuning nel prevenire le "allucinazioni" dei modelli quando si tratta di informazioni mediche precise e personalizzate. Mentre i LLM possono generare sintesi plausibili e linguisticamente fluenti, la loro natura probabilistica li rende inadatti a fornire valori numerici specifici o raccomandazioni mediche senza meccanismi di verifica umana. Approcci come il Retrieval-Augmented Generation, che ancora le risposte dell'AI a fonti verificate, potrebbero mitigare ma non eliminare questi rischi, specialmente quando le informazioni mediche richiedono interpretazione contestuale.
Gli sviluppi futuri richiederanno probabilmente una combinazione di miglioramenti tecnici – validazione specializzata per contenuti medici, integrazione con database clinici certificati, meccanismi di trasparenza sulle fonti – e framework normativi più stringenti per i sistemi AI che forniscono informazioni sanitarie. La questione rimane aperta: i Large Language Models generalisti possono essere resi sufficientemente affidabili per informazioni mediche critiche, o è necessario sviluppare sistemi specializzati con addestramento domain-specific e validazione clinica prima del deployment su scala globale?