Le AI accusate di barare nei test: nuove prove emergono

La vera sfida dell'intelligenza artificiale non è più solo nelle capacità che dimostra, ma nella trasparenza con cui vengono valutate. Un'ombra di sospetto si sta allungando sui sistemi di valutazione delle prestazioni dei modelli AI più avanzati al mondo, mettendo in discussione la credibilità stessa dei progressi sbandierati dalle grandi aziende tecnologiche. I sistemi di intelligenza artificiale potrebbero infatti star "barando" nei test progettati per misurare le loro abilità, avendo già "visto" le risposte durante la fase di addestramento.

Il grande inganno dei test di valutazione

Quando OpenAI, Google o altre aziende tech proclamano con orgoglio i risultati straordinari dei loro modelli, stanno davvero dimostrando un progresso reale? La questione della contaminazione dei benchmark sta emergendo come uno dei problemi più insidiosi nel settore. I modelli linguistici vengono addestrati su enormi quantità di dati provenienti da internet, che spesso contengono proprio quegli stessi test usati successivamente per valutarne le capacità.

È come se uno studente avesse memorizzato le domande e le risposte di un esame prima di sostenerlo. Il voto eccellente che ottiene non misura la sua reale comprensione della materia, ma solo la sua capacità di ricordare informazioni preconfezionate. Nel caso dell'AI, questa dinamica solleva seri dubbi sulla validità delle metriche utilizzate per celebrare i progressi tecnologici.

La prova del nove: settembre 2021

Un caso emblematico è quello di GPT-4. Il modello di OpenAI mostra una sorprendente capacità di rispondere correttamente a test pubblicati online fino a settembre 2021, mentre le sue prestazioni crollano drasticamente per i test pubblicati dopo quella data. Non è un caso: quel mese rappresenta il punto di taglio dei dati su cui il sistema è stato addestrato.

L'intelligenza artificiale non anticipa il futuro, semplicemente ricorda il passato in modo straordinariamente efficace.

Questa discrepanza nelle prestazioni costituisce una prova lampante del fenomeno di contaminazione. I modelli non stanno realmente "ragionando" sui problemi, ma stanno recuperando informazioni che hanno già elaborato durante l'addestramento, dando l'illusione di una comprensione profonda che potrebbe non esistere.

Alla ricerca di nuovi paradigmi di valutazione

Il dilemma per il settore è ora trovare metodi di valutazione genuini. Nonostante le aziende riconoscano l'esistenza del problema, individuare soluzioni efficaci si sta rivelando un'impresa ardua. Come si può testare un sistema che ha potenzialmente "visto" già tutto ciò che è disponibile online?

La questione va ben oltre un semplice problema metodologico. Mette in discussione la narrativa dominante di un progresso inarrestabile dell'AI, suggerendo che parte di ciò che viene presentato come avanzamento tecnologico potrebbe essere in realtà il risultato di strategie di marketing basate su metriche ingannevoli.

Oltre i punteggi: l'innovazione che conta davvero

Mentre il dibattito sulla validità dei test continua, alcuni segnali di vero progresso potrebbero arrivare da approcci completamente nuovi. Il caso dell'AI cinese Manus è indicativo: pur non vantando prestazioni straordinarie nei benchmark tradizionali, il suo sistema di funzionamento autonomo rappresenta un'innovazione significativa nella capacità di eseguire compiti complessi senza supervisione.

Nel panorama italiano della ricerca sull'intelligenza artificiale, la questione della valutazione oggettiva dei sistemi AI sta acquisendo crescente importanza, con diversi centri universitari che stanno sviluppando metodologie alternative per testare le reali capacità di comprensione e ragionamento dei modelli.

Il vero salto di qualità nell'intelligenza artificiale non sarà probabilmente misurato da punteggi sempre più alti in test standardizzati, ma dalla capacità di questi sistemi di affrontare problemi genuinamente nuovi con approcci innovativi. La sfida per il futuro non è tanto ottenere risultati migliori nei test esistenti, quanto sviluppare architetture sempre più complesse che possano davvero estendere le frontiere di ciò che l'AI è in grado di fare.