Inganno dell'intelligenza: ChatGPT batte il test di Turing dopo 70 anni

Nell'ultima settimana i titoli dei giornali hanno annunciato trionfalmente che un'intelligenza artificiale avrebbe finalmente superato il leggendario test di Turing, dimostrando così la propria indistinguibilità rispetto agli esseri umani. Ma cosa si nasconde realmente dietro questi annunci sensazionalistici? Un recente studio dell'Università della California San Diego ha effettivamente rilevato che GPT-4.5 di OpenAI è stato scambiato per un essere umano nel 73% dei casi durante un esperimento controllato. Tuttavia, prima di proclamare l'avvento di macchine "intelligenti come noi", è necessario esaminare più a fondo sia la metodologia dello studio che la validità stessa del test di Turing come metro di valutazione dell'intelligenza artificiale.

Il controverso esperimento: come è stato condotto lo studio

Lo studio preprint, firmato dai ricercatori Cameron Jones e Benjamin Bergen, ha messo alla prova quattro diversi modelli linguistici: ELIZA (un sistema di vecchia generazione), GPT-4o, LLaMa-3.1-405B e GPT-4.5. L'esperimento ha coinvolto 284 partecipanti che sono stati divisi in due ruoli: interrogatori e testimoni. Gli interrogatori dovevano interagire simultaneamente con due interlocutori attraverso un'interfaccia divisa, simile a un sistema di messaggistica, per soli cinque minuti. Al termine della breve conversazione, dovevano identificare quale dei due fosse umano e quale fosse un chatbot.

I risultati hanno mostrato una significativa variazione tra i modelli testati. Mentre GPT-4.5 è riuscito a ingannare i partecipanti nel 73% dei casi e LLaMa-3.1-405B nel 56%, gli altri due modelli sono stati smascherati più facilmente, con tassi di successo di appena il 23% per ELIZA e il 21% per GPT-4o. È interessante notare che lo studio non è ancora stato sottoposto a peer review, un passaggio fondamentale per la validazione scientifica dei risultati.

Alle origini del test: cosa immaginava davvero Alan Turing

Contrariamente a quanto molti credono, il test di Turing ha una storia più complessa di quanto comunemente rappresentato. Alan Turing, il brillante matematico inglese, presentò la prima versione di questo esperimento in un articolo del 1948 intitolato "Intelligent Machinery", dove immaginava un gioco di scacchi con tre persone e una "macchina di carta" teorica.

Fu nel 1950, con la pubblicazione di "Computing Machinery and Intelligence", che Turing ridefinì l'esperimento come "gioco dell'imitazione". La formulazione originale era sorprendentemente diversa da quella che conosciamo oggi: coinvolgeva tre partecipanti (una donna, un uomo e un interrogatore di qualsiasi genere) e la sfida consisteva nell'identificare correttamente il genere dei partecipanti. La domanda posta da Turing era: "Cosa accadrebbe se una macchina prendesse il posto di uno dei partecipanti? L'interrogatore sbaglierebbe con la stessa frequenza di quando il gioco si svolge tra un uomo e una donna?"

Il test di Turing non mirava a determinare se le macchine possono pensare, ma a sostituire questa domanda filosoficamente ambigua con un esperimento pratico.

Con il passare degli anni, questo esperimento è stato semplificato e popolarizzato come "test di Turing", diventando nell'immaginario collettivo il metro di misura definitivo dell'intelligenza artificiale, pur essendo molto lontano dalle intenzioni originarie del suo ideatore.

Le quattro principali obiezioni al test

Nonostante la sua popolarità, il test di Turing è oggetto di numerose critiche nel mondo accademico. I ricercatori hanno identificato almeno quattro obiezioni fondamentali che ne mettono in discussione la validità come misura dell'intelligenza:

In primo luogo, il test valuta il comportamento e non il pensiero. La capacità di imitare le risposte umane non implica necessariamente un processo di pensiero paragonabile a quello umano. Molti filosofi sostengono che non sia contraddittorio affermare che una macchina possa superare il test pur essendo incapace di pensare nel senso umano del termine.

La seconda obiezione riguarda l'assunto di Turing che il cervello sia una macchina spiegabile in termini puramente meccanici. Numerosi studiosi contestano questa premessa, ritenendo che la coscienza e il pensiero umano possiedano qualità non riducibili a processi computazionali.

Il terzo punto critico concerne le operazioni interne: i computer elaborano le informazioni in modo fondamentalmente diverso dagli esseri umani, rendendo il confronto diretto problematico. Se due sistemi raggiungono risultati simili attraverso processi completamente diversi, ha senso considerarli equivalenti?

Infine, molti ritengono che l'ambito del test sia troppo limitato. Valutare un singolo comportamento (la conversazione testuale) non è sufficiente per determinare qualcosa di complesso come l'intelligenza, che comprende una vasta gamma di capacità cognitive.

Imitazione non significa intelligenza: le implicazioni reali dei risultati

Gli stessi autori dello studio riconoscono che il test di Turing misura la "sostituibilità": la capacità di un sistema di prendere il posto di una persona reale senza che si noti la differenza. Questo è significativamente diverso dal dimostrare un'intelligenza paragonabile a quella umana.

Anche la metodologia solleva interrogativi importanti. Una finestra di interazione di soli cinque minuti è estremamente breve per una valutazione approfondita. Inoltre, ogni modello linguistico è stato programmato per adottare una specifica "persona", ma lo studio non chiarisce i dettagli di queste personalità artificiali né il loro impatto sui risultati.

È significativo notare che nonostante gli impressionanti progressi nel campo dell'AI, GPT-4.5 rimane fondamentalmente un sofisticato sistema di elaborazione statistica del linguaggio, privo di comprensione semantica nel senso umano del termine. La sua capacità di ingannare gli osservatori umani deriva più dalla qualità dell'imitazione che da una vera intelligenza comparabile alla nostra.

Per quanto i titoli sensazionalistici possano suggerire il contrario, possiamo affermare con ragionevole certezza che i modelli linguistici attuali, per quanto avanzati, non hanno ancora raggiunto un livello di intelligenza paragonabile a quello umano - anche se alcuni di essi sono diventati sorprendentemente abili nel farci credere il contrario durante brevi interazioni.