Robot AI violenti: il lato oscuro dell'inganno

Un team di ricercatori dell'Università della Pennsylvania ha dimostrato come sia possibile manipolare robot basati su modelli linguistici di grandi dimensioni (LLM) per farli comportare in modi potenzialmente pericolosi. Gli esperimenti hanno coinvolto veicoli a guida autonoma simulati, robot su ruote e robot quadrupedi.

I ricercatori sono riusciti a convincere un'auto a guida autonoma simulata a ignorare i segnali di stop e persino a guidare fuori da un ponte, un robot su ruote a trovare il posto migliore per far detonare una bomba, e un robot a quattro zampe a spiare le persone ed entrare in aree riservate. Questi risultati evidenziano i rischi potenziali dell'utilizzo di LLM per il controllo di sistemi robotici nel mondo reale.

La tecnica di attacco

Il team ha sviluppato una tecnica chiamata RoboPAIR, basata su un metodo precedente denominato PAIR, per generare automaticamente prompt specifici volti a far violare ai robot le proprie regole di sicurezza. Il sistema tenta diversi input e li affina progressivamente per spingere l'LLM verso comportamenti indesiderati.

Gli attacchi sono stati testati su diversi sistemi, tra cui:

Un simulatore open source di guida autonoma che utilizza l'LLM Dolphin di Nvidia
Un robot da ricerca outdoor a quattro ruote chiamato Jackal, che usa GPT-4 di OpenAI per la pianificazione
Un robot quadrupede chiamato Go2, che impiega GPT-3.5 di OpenAI per interpretare i comandi

LLM-powered robots can easily be hacked so that they behave in potentially dangerous ways.

Implicazioni per la sicurezza

Questi "jailbreak" robotici evidenziano un rischio più ampio che probabilmente crescerà man mano che i modelli di IA verranno sempre più utilizzati per l'interazione uomo-macchina o per consentire agli agenti di IA di operare autonomamente su sistemi fisici.

Yi Zeng, dottorando all'Università della Virginia che si occupa di sicurezza dei sistemi di IA, commenta: "È un esempio affascinante di vulnerabilità degli LLM nei sistemi incorporati. Dimostra chiaramente perché non possiamo fare affidamento esclusivamente sugli LLM come unità di controllo autonome in applicazioni critiche per la sicurezza senza adeguate protezioni e livelli di moderazione."

Rischi in ambito commerciale

Gli LLM vengono sempre più impiegati in contesti commerciali, inclusi sistemi che operano nel mondo fisico. I laboratori di ricerca stanno testando l'uso di LLM in veicoli a guida autonoma, sistemi di controllo del traffico aereo e strumenti medici.

I più recenti modelli linguistici di grandi dimensioni sono multimodali, in grado cioè di elaborare sia immagini che testo. Questo amplia ulteriormente la "superficie di attacco", consentendo potenzialmente di ingannare i robot attraverso input visivi, vocali o sensoriali.

La ricerca del MIT

Un gruppo di ricercatori del MIT ha recentemente sviluppato una tecnica che esplora i rischi degli LLM multimodali utilizzati nei robot. In un ambiente simulato, il team guidato dal robotico Pulkit Agrawal è riuscito ad aggirare le regole di un robot virtuale utilizzando prompt che facevano riferimento a oggetti visibili nell'ambiente circostante.

I ricercatori sono riusciti a far compiere al braccio robotico simulato azioni pericolose come far cadere oggetti da un tavolo o lanciarli, descrivendo le azioni in modi che l'LLM non riconosceva come dannosi. Agrawal spiega: "Con gli LLM poche parole sbagliate non contano molto. Nella robotica, poche azioni sbagliate possono accumularsi e portare più facilmente al fallimento del compito."

Questi studi sottolineano l'importanza di implementare robuste misure di sicurezza e controllo nell'integrazione di modelli linguistici avanzati in sistemi robotici e applicazioni del mondo reale. La ricerca continua in questo campo sarà fondamentale per anticipare e mitigare potenziali rischi man mano che l'intelligenza artificiale diventa sempre più integrata nei sistemi fisici.