Un team di ricerca internazionale, guidato dall'Università Rovira i Virgili (URV), ha scoperto che i modelli di intelligenza artificiale (AI), pur eccellendo in compiti specifici, mostrano lacune significative nella comprensione del linguaggio rispetto agli umani. Lo studio, pubblicato su Scientific Reports, ha confrontato le capacità di sette modelli AI con quelle di un gruppo di persone in semplici test di comprensione del testo.
Questa ricerca evidenzia un aspetto cruciale nello sviluppo dell'AI: la capacità di eseguire compiti complessi non implica necessariamente una competenza equivalente in operazioni linguistiche basilari. La comprensione del linguaggio, che per gli umani è un processo naturale e intuitivo, si rivela ancora una sfida per le macchine. Questo solleva interrogativi importanti sull'affidabilità e l'applicazione dell'AI in contesti dove una precisa interpretazione del linguaggio è fondamentale.
Come è stato condotto lo studio
I ricercatori hanno messo a confronto sette modelli di AI: Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 e Mixtral. Hanno utilizzato 40 domande con strutture grammaticali semplici e verbi di uso comune. Le stesse domande sono state poste a un gruppo di 400 persone madrelingua inglese. L'accuratezza delle risposte è stata confrontata per valutare le differenze tra le capacità umane e quelle delle macchine.
Per valutare la coerenza delle risposte, ogni domanda è stata ripetuta tre volte. Questo ha permesso di analizzare se i modelli AI e gli esseri umani fornivano risposte simili in situazioni identiche. Le reti neurali, alla base di questi modelli, sono sistemi complessi che emulano il funzionamento del cervello umano. Sono addestrate con grandi quantità di dati per apprendere a riconoscere schemi e a generare risposte.
Vittoria Dentella, ricercatrice presso il Gruppo di Ricerca sul Linguaggio e la Linguistica dell'URV, ha dichiarato: "I modelli di linguaggio di grandi dimensioni (LLM) non comprendono realmente il linguaggio, ma semplicemente sfruttano gli schemi statistici presenti nei loro dati di addestramento".
I risultati hanno mostrato che l'accuratezza media degli umani è stata dell'89%, significativamente superiore a quella dei modelli AI. Il migliore tra i modelli, ChatGPT-4, ha raggiunto l'83% di risposte corrette. La differenza è ancora più marcata considerando che, ad eccezione di ChatGPT-4, nessuno degli altri modelli LLM ha superato il 70% di accuratezza.
Coerenza delle risposte
Gli umani hanno dimostrato una maggiore coerenza nelle risposte ripetute, mantenendole nell'87% dei casi. I modelli di comprensione del testo, invece, hanno mostrato una coerenza variabile tra il 66% e l'83%. Questo suggerisce che, anche quando un modello fornisce una risposta corretta, potrebbe non essere in grado di replicarla costantemente.
La coerenza è un aspetto fondamentale per l'affidabilità di un sistema di AI. Se un modello fornisce risposte diverse alla stessa domanda, la sua utilità pratica diminuisce, specialmente in contesti dove la precisione è essenziale.
È importante notare che le reti neurali richiedono un addestramento intensivo. I ricercatori devono fornire loro grandi quantità di dati per permettere di apprendere a elaborare le informazioni e a fornire le risposte attese. Una volta addestrate, queste reti vengono utilizzate in vari compiti, come la previsione, la classificazione dei dati e il riconoscimento di schemi.
Implicazioni e limitazioni
Secondo Dentella, "Anche se gli LLM possono generare testi grammaticalmente corretti e apparentemente coerenti, i risultati di questo studio suggeriscono che, alla fine, non comprendono il significato del linguaggio nel modo in cui lo fa un umano". Questo significa che i modelli AI si basano principalmente su schemi statistici e non su una vera comprensione semantica.
L'assenza di una vera comprensione del significato può portare a risposte incoerenti, soprattutto quando le domande vengono ripetute. Questo spiega anche perché i modelli possono fornire risposte errate o che dimostrano una mancata comprensione del contesto. In realtà, i modelli linguistici estesi non interpretano il significato come farebbe una persona, combinando elementi semantici, grammaticali, pragmatici e contestuali.
Questa limitazione solleva preoccupazioni sull'affidabilità dell'AI in applicazioni critiche. "La nostra ricerca mostra che la capacità degli LLM di svolgere compiti complessi non garantisce che siano competenti in compiti semplici, che spesso sono quelli che richiedono una reale comprensione del linguaggio", ha aggiunto Dentella.
Le implicazioni di questa ricerca sono significative per lo sviluppo futuro dell'AI. Mentre i modelli continuano a migliorare, è essenziale riconoscere le loro limitazioni e concentrarsi sullo sviluppo di sistemi che non solo elaborino il linguaggio in modo efficiente, ma che lo comprendano anche in modo più simile agli umani. Questo potrebbe richiedere approcci diversi all'addestramento e all'architettura delle reti neurali.
Conclusioni
Lo studio dell'URV mette in luce un divario importante tra le capacità attuali dell'AI e la comprensione umana del linguaggio. Pur essendo strumenti potenti per la generazione di testo e l'automazione di compiti, i modelli di linguaggio di grandi dimensioni non sono ancora in grado di eguagliare la profondità e la coerenza della comprensione umana. La ricerca futura dovrà concentrarsi sullo sviluppo di modelli che vadano oltre il semplice riconoscimento di schemi statistici, mirando a una vera comprensione semantica e contestuale.
I Large Language Models (LLM), come ChatGPT, Bard, e altri, rappresentano l'ultima frontiera dell'AI nel campo dell'elaborazione del linguaggio naturale. Questi modelli, basati su reti neurali profonde, sono in grado di generare testi, tradurre lingue, rispondere a domande e persino risolvere problemi complessi. Tuttavia, come evidenziato nello studio, la loro capacità di comprensione del linguaggio rimane superficiale, basandosi principalmente sull'identificazione di modelli statistici nei dati di addestramento piuttosto che su una vera comprensione semantica.
Una curiosità interessante riguarda l'evoluzione delle reti neurali. Ispirate al funzionamento del cervello umano, queste strutture computazionali sono composte da nodi interconnessi che elaborano e trasmettono informazioni. L'addestramento di una rete neurale richiede enormi quantità di dati, attraverso i quali la rete impara a riconoscere schemi e a fare previsioni. Questo processo di apprendimento automatico ha permesso all'AI di raggiungere risultati sorprendenti, ma ha anche rivelato i suoi limiti, soprattutto quando si tratta di affrontare situazioni nuove o ambigue.
Lo studio menzionato nell'articolo solleva importanti interrogativi sull'affidabilità dell'AI in contesti critici. Se un modello di linguaggio non è in grado di comprendere appieno il significato di un testo, le sue risposte potrebbero essere inaccurate o fuorvianti. Questo è particolarmente problematico in settori come la medicina, il diritto e l'istruzione, dove è essenziale una comprensione precisa e affidabile delle informazioni.