AI a secco: l'italiano è ancora un Everest?

Un team di ricerca internazionale, guidato dall'Università Rovira i Virgili (URV), ha scoperto che i modelli di intelligenza artificiale (AI), pur eccellendo in compiti specifici, mostrano lacune significative nella comprensione del linguaggio rispetto agli umani. Lo studio, pubblicato su Scientific Reports, ha confrontato le capacità di sette modelli AI con quelle di un gruppo di persone in semplici test di comprensione del testo.

Questa ricerca evidenzia un aspetto cruciale nello sviluppo dell'AI: la capacità di eseguire compiti complessi non implica necessariamente una competenza equivalente in operazioni linguistiche basilari. La comprensione del linguaggio, che per gli umani è un processo naturale e intuitivo, si rivela ancora una sfida per le macchine. Questo solleva interrogativi importanti sull'affidabilità e l'applicazione dell'AI in contesti dove una precisa interpretazione del linguaggio è fondamentale.

Come è stato condotto lo studio

I ricercatori hanno messo a confronto sette modelli di AI: Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 e Mixtral. Hanno utilizzato 40 domande con strutture grammaticali semplici e verbi di uso comune. Le stesse domande sono state poste a un gruppo di 400 persone madrelingua inglese. L'accuratezza delle risposte è stata confrontata per valutare le differenze tra le capacità umane e quelle delle macchine.

Per valutare la coerenza delle risposte, ogni domanda è stata ripetuta tre volte. Questo ha permesso di analizzare se i modelli AI e gli esseri umani fornivano risposte simili in situazioni identiche. Le reti neurali, alla base di questi modelli, sono sistemi complessi che emulano il funzionamento del cervello umano. Sono addestrate con grandi quantità di dati per apprendere a riconoscere schemi e a generare risposte.

Vittoria Dentella, ricercatrice presso il Gruppo di Ricerca sul Linguaggio e la Linguistica dell'URV, ha dichiarato: "I modelli di linguaggio di grandi dimensioni (LLM) non comprendono realmente il linguaggio, ma semplicemente sfruttano gli schemi statistici presenti nei loro dati di addestramento".

LLMs non comprendono realmente il linguaggio, ma semplicemente sfruttano gli schemi statistici presenti nei loro dati di addestramento.

I risultati hanno mostrato che l'accuratezza media degli umani è stata dell'89%, significativamente superiore a quella dei modelli AI. Il migliore tra i modelli, ChatGPT-4, ha raggiunto l'83% di risposte corrette. La differenza è ancora più marcata considerando che, ad eccezione di ChatGPT-4, nessuno degli altri modelli LLM ha superato il 70% di accuratezza.

Coerenza delle risposte

Gli umani hanno dimostrato una maggiore coerenza nelle risposte ripetute, mantenendole nell'87% dei casi. I modelli di comprensione del testo, invece, hanno mostrato una coerenza variabile tra il 66% e l'83%. Questo suggerisce che, anche quando un modello fornisce una risposta corretta, potrebbe non essere in grado di replicarla costantemente.

La coerenza è un aspetto fondamentale per l'affidabilità di un sistema di AI. Se un modello fornisce risposte diverse alla stessa domanda, la sua utilità pratica diminuisce, specialmente in contesti dove la precisione è essenziale.

È importante notare che le reti neurali richiedono un addestramento intensivo. I ricercatori devono fornire loro grandi quantità di dati per permettere di apprendere a elaborare le informazioni e a fornire le risposte attese. Una volta addestrate, queste reti vengono utilizzate in vari compiti, come la previsione, la classificazione dei dati e il riconoscimento di schemi.

Implicazioni e limitazioni

Secondo Dentella, "Anche se gli LLM possono generare testi grammaticalmente corretti e apparentemente coerenti, i risultati di questo studio suggeriscono che, alla fine, non comprendono il significato del linguaggio nel modo in cui lo fa un umano". Questo significa che i modelli AI si basano principalmente su schemi statistici e non su una vera comprensione semantica.

L'assenza di una vera comprensione del significato può portare a risposte incoerenti, soprattutto quando le domande vengono ripetute. Questo spiega anche perché i modelli possono fornire risposte errate o che dimostrano una mancata comprensione del contesto. In realtà, i modelli linguistici estesi non interpretano il significato come farebbe una persona, combinando elementi semantici, grammaticali, pragmatici e contestuali.

Questa limitazione solleva preoccupazioni sull'affidabilità dell'AI in applicazioni critiche. "La nostra ricerca mostra che la capacità degli LLM di svolgere compiti complessi non garantisce che siano competenti in compiti semplici, che spesso sono quelli che richiedono una reale comprensione del linguaggio", ha aggiunto Dentella.

Le implicazioni di questa ricerca sono significative per lo sviluppo futuro dell'AI. Mentre i modelli continuano a migliorare, è essenziale riconoscere le loro limitazioni e concentrarsi sullo sviluppo di sistemi che non solo elaborino il linguaggio in modo efficiente, ma che lo comprendano anche in modo più simile agli umani. Questo potrebbe richiedere approcci diversi all'addestramento e all'architettura delle reti neurali.

Conclusioni

Lo studio dell'URV mette in luce un divario importante tra le capacità attuali dell'AI e la comprensione umana del linguaggio. Pur essendo strumenti potenti per la generazione di testo e l'automazione di compiti, i modelli di linguaggio di grandi dimensioni non sono ancora in grado di eguagliare la profondità e la coerenza della comprensione umana. La ricerca futura dovrà concentrarsi sullo sviluppo di modelli che vadano oltre il semplice riconoscimento di schemi statistici, mirando a una vera comprensione semantica e contestuale.

L'articolo esplora le capacità dei modelli di intelligenza artificiale (AI) nel comprendere il linguaggio, confrontandole con quelle umane. Nonostante i progressi significativi compiuti dall'AI, specialmente nei Large Language Models (LLM), la ricerca evidenzia come queste tecnologie siano ancora lontane dal raggiungere il livello di comprensione umana, specialmente in compiti di comprensione testuale semplici.

Il concetto di intelligenza artificiale ha radici profonde nella storia del pensiero umano. Già nell'antichità, filosofi e inventori immaginavano automi capaci di emulare il comportamento umano. Tuttavia, è solo nel XX secolo, con l'avvento dei computer, che l'AI ha iniziato a concretizzarsi come disciplina scientifica. Il famoso test di Turing, proposto da Alan Turing nel 1950, ha rappresentato una pietra miliare, ponendo le basi per valutare la capacità di una macchina di esibire un comportamento intelligente simile a quello umano.

I Large Language Models (LLM), come ChatGPT, Bard, e altri, rappresentano l'ultima frontiera dell'AI nel campo dell'elaborazione del linguaggio naturale. Questi modelli, basati su reti neurali profonde, sono in grado di generare testi, tradurre lingue, rispondere a domande e persino risolvere problemi complessi. Tuttavia, come evidenziato nello studio, la loro capacità di comprensione del linguaggio rimane superficiale, basandosi principalmente sull'identificazione di modelli statistici nei dati di addestramento piuttosto che su una vera comprensione semantica.

Una curiosità interessante riguarda l'evoluzione delle reti neurali. Ispirate al funzionamento del cervello umano, queste strutture computazionali sono composte da nodi interconnessi che elaborano e trasmettono informazioni. L'addestramento di una rete neurale richiede enormi quantità di dati, attraverso i quali la rete impara a riconoscere schemi e a fare previsioni. Questo processo di apprendimento automatico ha permesso all'AI di raggiungere risultati sorprendenti, ma ha anche rivelato i suoi limiti, soprattutto quando si tratta di affrontare situazioni nuove o ambigue.

Lo studio menzionato nell'articolo solleva importanti interrogativi sull'affidabilità dell'AI in contesti critici. Se un modello di linguaggio non è in grado di comprendere appieno il significato di un testo, le sue risposte potrebbero essere inaccurate o fuorvianti. Questo è particolarmente problematico in settori come la medicina, il diritto e l'istruzione, dove è essenziale una comprensione precisa e affidabile delle informazioni.

"Although LLMs can generate grammatically correct and apparently coherent texts, the results of this study suggest that, in the end, they do not understand the meaning of language in the way a human does," spiega Dentella.

In conclusione, mentre l'AI continua a fare progressi straordinari, è importante riconoscere i suoi limiti attuali. La ricerca sulla comprensione del linguaggio da parte delle macchine è ancora in corso e richiederà un approccio multidisciplinare che combini linguistica, informatica e neuroscienze. Solo allora potremo sviluppare sistemi di AI veramente intelligenti, capaci di comprendere e utilizzare il linguaggio in modo simile agli esseri umani. È fondamentale non sopravvalutare le capacità attuali dell'AI, soprattutto in contesti dove l'accuratezza e l'affidabilità sono essenziali.