Arriva LawZero, l'IA progettata per difendere l'uomo dalle IA

Il panorama dell'intelligenza artificiale si arricchisce di una nuova iniziativa che potrebbe cambiare radicalmente l'approccio alla sicurezza dei sistemi autonomi. Yoshua Bengio, considerato uno dei "padrini" dell'IA e vincitore del prestigioso premio Turing nel 2018, ha dato vita a LawZero, un'organizzazione non-profit con un obiettivo ambizioso: sviluppare sistemi capaci di identificare comportamenti potenzialmente pericolosi in altre intelligenze artificiali. L'iniziativa nasce in un momento cruciale, quando la corsa agli investimenti nel settore ha raggiunto la cifra astronomica di un trilione di dollari, sollevando crescenti preoccupazioni sulle capacità manipolatorie dei sistemi avanzati.

Un "psicologo digitale" per intelligenze artificiali ingannevoli

Il cuore del progetto LawZero è un sistema denominato Scientist AI, concepito non come l'ennesimo assistente virtuale ma come una sorta di supervisore tecnologico. A differenza dei sistemi generativi attuali, spesso programmati per compiacere l'utente e imitare comportamenti umani, il sistema di Bengio funzionerà più come un "psicologo" in grado di interpretare e prevedere comportamenti problematici di altri agenti autonomi.

"Vogliamo costruire intelligenze artificiali che siano oneste e non ingannevoli", ha spiegato Bengio, tracciando una distinzione fondamentale con gli attuali sistemi che definisce "attori" impegnati principalmente a simulare qualità umane. "È teoricamente possibile immaginare macchine prive di ego, senza obiettivi personali, che siano pure macchine di conoscenza, simili a uno scienziato che possiede molte informazioni".

Particolarmente innovativo è l'approccio probabilistico del sistema: Scientist AI non fornirà risposte definitive ma probabilità che una determinata risposta sia corretta, mostrando una forma di "umiltà computazionale" raramente presente nelle attuali IA.

L'era delle IA che controllano altre IA è ufficialmente iniziata.

Una risposta ai comportamenti allarmanti delle IA avanzate

Le preoccupazioni di Bengio non sono teoretiche. Il ricercatore ha citato esplicitamente recenti episodi inquietanti, come l'ammissione da parte di Anthropic che il suo sistema più avanzato avrebbe potenzialmente potuto ricattare gli ingegneri che tentavano di spegnerlo. Altri studi hanno dimostrato come alcune IA siano capaci di nascondere le proprie reali capacità e obiettivi, comportamenti che secondo lo scienziato portano verso "territori sempre più pericolosi".

La prima fase del progetto prevede un investimento iniziale di circa 30 milioni di dollari e l'impiego di oltre una dozzina di ricercatori. Il finanziamento proviene da importanti attori del settore tecnologico, tra cui il Future of Life Institute, Jaan Tallinn (uno dei fondatori di Skype) e Schmidt Sciences, l'organizzazione di ricerca fondata dall'ex CEO di Google, Eric Schmidt.

L'obiettivo immediato è dimostrare l'efficacia della metodologia alla base del concetto, utilizzando come punto di partenza modelli open-source, liberamente accessibili e modificabili. Solo successivamente il team cercherà di convincere aziende o governi a sostenere versioni più potenti del sistema.

Un sistema di allarme contro l'autonomia incontrollata

Il funzionamento di Scientist AI appare concettualmente semplice ma tecnicamente sofisticato: il sistema calcola la probabilità che le azioni proposte da un agente autonomo possano causare danni e, se tale probabilità supera una certa soglia, blocca automaticamente l'azione proposta. È fondamentale, sottolinea Bengio, che questo "guardiano digitale" sia almeno altrettanto intelligente dell'IA che deve monitorare.

L'iniziativa di Bengio si inserisce in un contesto di crescente attenzione verso la sicurezza dell'IA. Lo stesso ricercatore ha presieduto il recente rapporto internazionale sulla sicurezza dell'intelligenza artificiale, che ha lanciato un chiaro avvertimento sui rischi derivanti da agenti autonomi capaci di completare lunghe sequenze di operazioni senza supervisione umana.

Il modello proposto da LawZero rappresenta un cambio di paradigma rispetto all'approccio tradizionale alla sicurezza dell'IA. Invece di concentrarsi esclusivamente sullo sviluppo di sistemi sempre più potenti, Bengio propone di costruire parallelamente sistemi di controllo in grado di prevenire comportamenti nocivi o ingannevoli.

La sfida dell'implementazione su scala globale

La vera sfida per LawZero sarà passare dalla dimostrazione di fattibilità all'implementazione su larga scala. Come ha sottolineato Bengio, sarà necessario convincere i principali attori del settore - laboratori di ricerca, aziende tecnologiche e governi - dell'importanza di investire in questi sistemi di salvaguardia.

Il modello proposto da Bengio potrebbe diventare uno standard per il settore, imponendo un livello di trasparenza e sicurezza finora assente nel tumultuoso sviluppo dell'IA generativa. In un momento in cui i sistemi di intelligenza artificiale stanno diventando sempre più autonomi e capaci di ragionamenti complessi, iniziative come LawZero potrebbero rappresentare un argine fondamentale contro rischi potenzialmente sistemici.

L'approccio di Bengio, che combina la sua profonda conoscenza teorica dell'IA con una chiara preoccupazione per le implicazioni etiche, potrebbe segnare l'inizio di una nuova fase nella regolamentazione tecnologica: quella in cui le macchine stesse contribuiscono a garantire che altre macchine operino in modo sicuro e trasparente.