Musk sfida Karpathy: duello AI con Grok 5

Il mondo dell'intelligenza artificiale sta assistendo a un nuovo capitolo della competizione tra umani e macchine, questa volta nel campo della programmazione algoritmica. Elon Musk ha lanciato una sfida pubblica ad Andrej Karpathy, ex responsabile della ricerca in OpenAI e figura di spicco nel panorama del machine learning, proponendo una gara di coding tra l'esperto umano e Grok 5, il modello di punta sviluppato da xAI. Il richiamo è esplicito: riprodurre la storica partita del 1997 tra il campione di scacchi Garry Kasparov e Deep Blue di IBM, ma in un dominio che rappresenta oggi uno dei test più rigorosi per valutare le capacità di ragionamento logico e problem-solving dei Large Language Models.

La proposta di Musk arriva in risposta alle dichiarazioni di Karpathy rilasciate durante un'intervista al Dwarkesh Podcast, dove il ricercatore ha espresso scetticismo sui tempi di arrivo dell'AGI (Artificial General Intelligence), collocandola ancora a circa un decennio di distanza. Karpathy ha inoltre definito Grok 5 come un sistema che "arranca dietro a GPT-4 di diversi mesi", una valutazione che contrasta nettamente con le affermazioni di Musk, secondo cui il suo modello avrebbe già una probabilità del 10% – e in crescita – di raggiungere l'intelligenza artificiale generale.

La risposta di Karpathy è stata diplomatica ma rivelatrice di un cambio di paradigma nella comunità dell'AI: ha declinato l'invito, affermando che il suo contributo in una competizione diretta "tenderebbe verso lo zero" e sottolineando come preferisca considerare i modelli attuali come strumenti di collaborazione piuttosto che come avversari. Questa posizione riflette un orientamento crescente tra i practitioner del machine learning, che privilegiano la valutazione di quanto efficacemente i modelli possano amplificare la produttività umana rispetto alla logica del confronto diretto.

Eppure, il competitive programming rappresenta oggi uno dei benchmark più solidi e trasparenti per misurare le capacità di ragionamento dei sistemi AI. DeepMind ha annunciato all'inizio di quest'anno che Gemini 2.5 ha risolto 10 problemi su 12 nelle condizioni delle ICPC World Finals (International Collegiate Programming Contest), ottenendo un punteggio equivalente alla medaglia d'oro. Ancora più significativo, sia OpenAI che DeepMind hanno raggiunto il punteggio perfetto di 12/12 sullo stesso benchmark utilizzando rispettivamente GPT-4 e GPT-5, dimostrando che i modelli più avanzati sono ormai in grado di competere a livelli universitari d'élite in algoritmica.

Un programmatore polacco ha battuto il modello custom di OpenAI in una finale di 10 ore agli AtCoder World Tour Finals, un risultato che alcuni considerano potenzialmente l'ultima vittoria umana ai massimi livelli.

Questi problemi non sono esercizi banali: vengono estratti da competizioni algoritmiche di livello universitario avanzato, valutati sia per correttezza che per performance in termini di runtime, e devono essere risolti entro vincoli rigorosi di tempo e risorse computazionali. La vittoria del programmatore polacco contro il sistema di OpenAI all'inizio dell'anno è avvenuta in condizioni strettamente controllate e completamente trasparenti, con una durata di 10 ore e set di problemi pubblici.

Se Musk vuole che Grok 5 venga preso seriamente in questa categoria, dovrà sottoporlo alle stesse condizioni. Il paragone con Deep Blue funziona solo se la sfida è misurabile in modo oggettivo: contest a durata fissa utilizzando problem set pubblici, accesso identico a strumenti e capacità computazionale, assenza di inferenza esterna o assistenza umana. I risultati dovrebbero essere valutati in modo indipendente e pubblicati integralmente, secondo gli standard che hanno reso credibili i precedenti confronti tra AI e campioni umani.

Il nodo centrale non è solo tecnico, ma metodologico: mentre xAI non ha ancora pubblicato risultati formali di Grok 5 su benchmark di competitive programming standard, altri laboratori hanno stabilito un precedente di trasparenza che include metriche dettagliate, condizioni di test riproducibili e validazione indipendente. Nel contesto europeo, dove l'AI Act impone requisiti crescenti di trasparenza e accountability per i sistemi ad alto rischio, questo tipo di documentazione diventa ancora più rilevante per valutare le reali capacità dei modelli oltre le dichiarazioni promozionali.

La sfida di Musk solleva anche interrogativi più ampi sul ruolo dei benchmark nel valutare il progresso verso l'AGI. Il competitive programming offre un ambiente controllato dove le performance sono quantificabili e confrontabili, ma resta un dominio specifico. La capacità di risolvere problemi algoritmici complessi non equivale necessariamente a intelligenza generale: richiede reasoning logico, ottimizzazione e conoscenza di strutture dati, ma non cattura dimensioni come comprensione contestuale profonda, creatività aperta o ragionamento causale in domini aperti.

Se xAI vuole dimostrare parità o superiorità rispetto ai modelli di frontiera di OpenAI e DeepMind, un test formale su problemi di livello ICPC rappresenterebbe il punto di partenza ovvio. Fino ad allora, le affermazioni sulle capacità di Grok 5 restano nell'ambito delle dichiarazioni non verificate. Nel frattempo, la decisione di Karpathy di non partecipare suggerisce che per molti esperti del settore, il vero valore dell'AI non si misura nel battere gli umani, ma nell'amplificarne le capacità attraverso una collaborazione efficace. La sfida lanciata da Musk rimane aperta, ma il dibattito che ha innescato rivela quanto il campo dell'intelligenza artificiale stia rapidamente evolvendo sia nelle sue capacità tecniche che nelle sue modalità di valutazione e utilizzo.

Musk sfida Karpathy: duello AI con Grok 5

> Musk paragona Grok 5 a Deep Blue e propone una sfida di programmazione