I modelli AI superano i test del Mensa

Il mondo dell'intelligenza artificiale sta attraversando una fase di crescita intellettuale che ricorda l'evoluzione cognitiva umana, ma compresse in tempi record. Mentre fino a poco tempo fa i chatbot faticavano a superare test di logica elementare, oggi assistiamo a prestazioni che farebbero impallidire molti laureati. La ricerca condotta da TrackingAI.org ha sottoposto 24 diversi modelli AI al rigoroso test di Mensa Norvegia, quello stesso utilizzato per identificare i membri dell'associazione internazionale dei superdotati.

Il fenomeno OpenAI o3: quando l'AI supera il 98° percentile

I risultati hanno del clamoroso: OpenAI o3 ha raggiunto un punteggio compreso tra 135 e 136 punti di QI, posizionandosi nella fascia dei superdotati e superando nettamente la soglia di accesso al Mensa, fissata intorno ai 130 punti. Per fare un paragone comprensibile al pubblico italiano, è come se un sistema artificiale avesse ottenuto il massimo dei voti alla maturità scientifica e poi si fosse laureato in ingegneria con 110 e lode.

Quello che rende ancora più interessante questo risultato è la metodologia del test. I ricercatori hanno verificato che o3 non stesse semplicemente rigurgitando informazioni apprese durante l'addestramento, sottoponendolo anche a domande completamente inedite. Anche in questo caso, il modello ha mantenuto prestazioni elevate con 116 punti, dimostrando capacità di ragionamento genuino piuttosto che mera memorizzazione.

La classifica dell'intelligenza artificiale

Solo i modelli testuali raggiungono vette cognitive elevate

Subito dietro o3 si posizionano altri colossi dell'AI testuale: Claude-4 Sonnet con 127 punti, seguito da Gemini 2.0 Flash Thinking a 126 e Gemini 2.5 Pro con 124. Anche OpenAI o4-mini, nonostante sia una versione "ridotta", ha conquistato un rispettabile 122, confermando che la famiglia OpenAI domina questa particolare classifica intellettuale.

Il dato più sorprendente emerge però dal confronto tra diverse tipologie di AI. Mentre i modelli focalizzati sul linguaggio brillano in questi test cognitivi, quelli multimodali – capaci cioè di elaborare immagini oltre al testo – mostrano prestazioni deludenti. GPT-4o Vision si ferma a soli 63 punti, mentre Grok-3 Think Vision raggiunge appena 60, entrambi ben al di sotto della media umana di 100 punti.

Il paradosso delle capacità visive

Questa discrepanza solleva interrogativi interessanti sulla natura dell'intelligenza artificiale contemporanea. Sembra che l'aggiunta di capacità visive comporti una sorta di "trade-off" cognitivo, come se il cervello artificiale dovesse sacrificare potenza di calcolo pura per gestire la complessità dell'elaborazione visiva. È un fenomeno che ricorda, in qualche modo, come alcuni bambini possano eccellere in matematica ma faticare con le attività artistiche, o viceversa.

I test di TrackingAI.org rappresentano uno dei primi tentativi sistematici di benchmarking cognitivo dell'intelligenza artificiale utilizzando strumenti progettati originariamente per gli esseri umani. Questo approccio, seppur non privo di limitazioni, offre un punto di riferimento comprensibile per valutare i progressi dell'AI in termini di capacità intellettuali pure.

La sfida ora è comprendere se questi punteggi elevati si tradurranno in applicazioni pratiche più efficaci, o se rappresentano semplicemente un'ottimizzazione per specifiche tipologie di test. Una cosa è certa: la frontiera dell'intelligenza artificiale continua a spostarsi a velocità impressionante, ridefinendo costantemente i parametri di ciò che consideriamo intelligenza artificiale avanzata.