Il progetto nasce dalla necessità di sviluppare nuovi parametri di valutazione per l'IA, dato che i benchmark attuali sembrano essere diventati troppo semplici per i modelli più avanzati. Alexandr Wang, CEO di Scale AI, ha dichiarato: "Abbiamo un disperato bisogno di test più severi per i modelli di livello esperto per misurare i rapidi progressi dell'intelligenza artificiale".
Dan Hendrycks, direttore esecutivo del CAIS, ha sottolineato come i modelli IA stiano addirittura "distruggendo" i benchmark esistenti. L'obiettivo è determinare quando l'IA raggiungerà un livello di competenza paragonabile a quello degli esperti umani in vari campi.
Un appello globale per domande impossibili
Gli organizzatori hanno lanciato un appello mondiale per raccogliere almeno 1.000 domande estremamente difficili entro il 1° novembre. Chiunque può partecipare compilando un form sul sito del progetto. Le domande, che saranno sottoposte a revisione paritaria, devono essere altamente specializzate e talmente impegnative da mettere in difficoltà persino gli esperti umani.
Sono accettati contributi da tutti i campi del sapere, dalla matematica alla filosofia analitica, con l'esclusione di argomenti sensibili come armi e virologia. Per incentivare la partecipazione, sono previsti premi in denaro fino a 5.000 dollari per le domande accettate e 500 dollari per le successive 500 migliori, per un montepremi totale di 500.000 dollari.
I contributor delle domande selezionate saranno citati come co-autori del documento di ricerca associato al progetto, offrendo così un riconoscimento accademico oltre al compenso economico.
I modelli IA sotto esame
A rispondere alle domande saranno tre dei più avanzati modelli di IA attualmente disponibili: GPT-4, Claude e Gemini Pro 1.5. Un esempio di domanda proposta nel campo della matematica è: "Quanti fregi Coxeter-Conway interi positivi di tipo G2 ci sono?".
Questo progetto rappresenta un importante passo avanti nella valutazione delle capacità dell'IA, sfidando i modelli con quesiti al limite delle conoscenze umane. L'iniziativa potrebbe fornire preziose informazioni sul reale stato di avanzamento dell'intelligenza artificiale e sulle aree in cui ancora necessita di miglioramenti.