La sfida impossibile: scienziati vs intelligenza AI

Un team di scienziati ha lanciato "L'ultimo esame dell'umanità", un progetto ambizioso per creare il test più complesso mai concepito per valutare le capacità delle principali intelligenze artificiali. L'iniziativa, avviata il 16 settembre, è frutto della collaborazione tra il Center for AI Safety (CAIS) e Scale AI.

Il progetto nasce dalla necessità di sviluppare nuovi parametri di valutazione per l'IA, dato che i benchmark attuali sembrano essere diventati troppo semplici per i modelli più avanzati. Alexandr Wang, CEO di Scale AI, ha dichiarato: "Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto per misurare i rapidi progressi dell'intelligenza artificiale".

Dan Hendrycks, direttore esecutivo del CAIS, ha sottolineato come i modelli IA stiano addirittura "distruggendo" i benchmark esistenti. L'obiettivo è determinare quando l'IA raggiungerà un livello di competenza paragonabile a quello degli esperti umani in vari campi.

Un appello globale per domande impossibili

Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 domande estremamente difficili entro il 1° novembre. Chiunque può partecipare compilando un form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, devono essere altamente specializzate e talmente impegnative da mettere in difficoltà persino gli esperti umani.

Pensa semplicemente a una domanda difficile e vedi se le AI la indovinano.

Sono accettati contributi da tutti i campi del sapere, dalla matematica alla filosofia analitica, con l'esclusione di argomenti sensibili come armi e virologia. Per incentivare la partecipazione, sono previsti premi in denaro fino a 5.000 dollari per le domande accettate e 500 dollari per le successive 500 migliori, per un montepremi totale di 500.000 dollari.

I contributor delle domande selezionate saranno citati come co-autori del documento di ricerca associato al progetto, offrendo così un riconoscimento accademico oltre al compenso economico.

I modelli IA sotto esame

A rispondere alle domande saranno tre dei più avanzati modelli di IA attualmente disponibili: GPT-4, Claude e Gemini Pro 1.5. Un esempio di domanda proposta nel campo della matematica è: "Quanti fregi Coxeter-Conway interi positivi di tipo G2 ci sono?".

Questo progetto rappresenta un importante passo avanti nella valutazione delle capacità dell'IA, sfidando i modelli con quesiti al limite delle conoscenze umane. L'iniziativa potrebbe fornire preziose informazioni sul reale stato di avanzamento dell'intelligenza artificiale e sulle aree in cui ancora necessita di miglioramenti.

La sfida impossibile: scienziati vs intelligenza AI

> Un test estremo per l'intelligenza artificiale: alla ricerca delle domande che possono mettere in scacco i più avanzati modelli linguistici

Un appello globale per domande impossibili

I modelli IA sotto esame