IA sfida il puzzle del New York Times: chi vincerà?

Un rivoluzionario studio condotto dalla NYU Tandon School of Engineering ha messo alla prova l'intelligenza artificiale (AI) nei confronti di complessi enigmi linguistici. Pubblicata su arXiv e presentata alla IEEE 2024 Conference on Games a Milano, l'indagine esplora la capacità degli attuali sistemi di elaborazione del linguaggio naturale (NLP) di risolvere i puzzle quotidiani "Connections" del New York Times.

Il gioco "Connections" sfida i giocatori a collegare 16 parole in quattro gruppi tematici, variando da connessioni semplici a quelle che richiedono un pensiero più astratto e non convenzionale. Il team di ricerca, guidato da Julian Togelius, professore associato di Computer Science and Engineering alla NYU Tandon e direttore del Game Innovation Lab, ha sperimentato con due approcci basati sull'AI: l'uso dei potenti modelli linguistici di OpenAI, GPT-3.5 e GPT-4, e l'impiego di modelli di embedding di frasi quali BERT e RoBERTa.

I risultati hanno rivelato che, sebbene tutti i sistemi AI abbiano risolto alcuni puzzle, la sfida rimane complessa. In particolare, GPT-4 ha registrato un tasso di successo del 29%, superando sia i metodi di embedding che GPT-3.5, ma senza eguagliare le prestazioni umane. Tuttavia, l'applicazione di un metodo di "prompting" basato su catene di ragionamento ha aumentato significativamente le prestazioni di GPT-4, portandole oltre il 39% di enigmi risolti.

Graham Todd e Timothy Merino, dottorandi al Game Innovation Lab e autori principali dello studio, evidenziano l'importanza di comprendere i limiti delle LLM nel trattamento delle informazioni semantiche e il potenziale delle tecniche di provocazione a catena di pensiero per migliorare il ragionamento strutturato delle AI. Lo studio apre anche la strada all'esplorazione dell'uso di modelli come GPT-4 nel supporto alla generazione umana di nuovi puzzle linguistici, spingendo oltre i confini della rappresentazione concettuale e delle inferenze contestuali da parte dei sistemi di machine learning.

Con 250 puzzle analizzati dall'archivio online, che copre il periodo dal 12 giugno 2023 al 16 febbraio 2024, la ricerca arricchisce il corpus di studi di Togelius, che mira a utilizzare l'AI per migliorare i giochi e viceversa. A completare il team di ricerca, Sam Earle, anch'egli dottorando al Game Innovation Lab.

Per maggiori dettagli sullo studio: Graham Todd et al, Missed Connections: Lateral Thinking Puzzles for Large Language Models, arXiv (2024). DOI: 10.48550/arxiv.2404.11730

IA sfida il puzzle del New York Times: chi vincerà?

> L'intelligenza artificiale può eguagliare le capacità umane nel trovare collegamenti oscuri tra le parole? Gli studiosi della NYU Tandon School of Engineering indagano usando il puzzle quotidiano Connections del New York Times