L'etica dell'IA: sfide nella gestione delle richieste

Un nuovo studio dell'EPFL ha dimostrato che anche i più recenti modelli linguistici di grandi dimensioni (LLM), nonostante l'addestramento sulla sicurezza, rimangono vulnerabili a semplici manipolazioni degli input che possono causare comportamenti indesiderati o dannosi. La ricerca, presentata al workshop sulla sicurezza dell'IA di nuova generazione della Conferenza Internazionale sull'Apprendimento Automatico (ICML 2024), ha ottenuto per la prima volta un tasso di attacco del 100% su molti LLM leader, inclusi i più recenti modelli di OpenAI e Anthropic. Questa scoperta solleva serie preoccupazioni sulla robustezza degli attuali sistemi di intelligenza artificiale e sulla loro capacità di resistere a tentativi malevoli di eludere le misure di sicurezza implementate. Gli LLM hanno notevoli capacità che potrebbero essere utilizzate in modo improprio, ad esempio per produrre contenuti tossici, diffondere disinformazione o supportare attività dannose.

I ricercatori Maksym Andriushchenko, Francesco Croce e Nicolas Flammarion del Laboratorio di Teoria dell'Apprendimento Automatico (TML) dell'EPFL sono riusciti a bypassare le protezioni di sicurezza di modelli come GPT-4 e Claude 3.5 utilizzando un semplice template di prompt adattivo. Questo ha permesso loro di indurre i modelli a generare output che si discostano dal loro scopo previsto, nonostante l'addestramento sulla sicurezza.

"Il nostro lavoro dimostra che è possibile sfruttare le informazioni disponibili su ciascun modello per costruire semplici attacchi adattivi, che definiamo come attacchi specificamente progettati per prendere di mira una data difesa", ha spiegato Nicolas Flammarion, capo del TML e co-autore dello studio.

Diversi modelli sono vulnerabili a diversi template di prompting.

Gli attacchi si sono rivelati efficaci su una vasta gamma di LLM, tra cui Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, i modelli Llama-2 e Llama-3, Gemma-7B, GPT-3.5, GPT-4, Claude-3/3.5 e R2D2. La chiave del successo è stata l'adattività degli attacchi: ogni modello presenta vulnerabilità uniche basate sulla sua interfaccia di programmazione e altre caratteristiche specifiche.

L'importanza dell'adattività nella valutazione della robustezza

Maksym Andriushchenko, dottorando dell'EPFL e autore principale dello studio, ha sottolineato: "Il nostro lavoro dimostra che l'applicazione diretta degli attacchi esistenti è insufficiente per valutare accuratamente la robustezza avversariale degli LLM e generalmente porta a una significativa sovrastima della robustezza. Nel nostro caso di studio, nessun singolo approccio ha funzionato sufficientemente bene, quindi è cruciale testare sia tecniche statiche che adattive."

Questa ricerca si basa sulla tesi di dottorato di Andriushchenko, che ha esplorato metodi per valutare la robustezza avversariale delle reti neurali. Il lavoro è stato utilizzato per informare lo sviluppo di Gemini 1.5, uno degli ultimi modelli rilasciati da Google DeepMind per applicazioni di intelligenza artificiale multimodale.

Verso una maggiore sicurezza degli LLM

Andriushchenko ritiene che la ricerca sulla sicurezza degli LLM sia sia importante che promettente. Con la società che si muove verso l'uso di LLM come agenti autonomi, ad esempio come assistenti AI personali, è fondamentale garantire la loro sicurezza e allineamento con i valori della società.

"Non passerà molto tempo prima che gli agenti AI possano svolgere vari compiti per noi, come pianificare e prenotare le nostre vacanze - compiti che richiederebbero l'accesso ai nostri calendari, email e conti bancari. È qui che sorgono molte domande sulla sicurezza e l'allineamento", ha spiegato.

Nicolas Flammarion ha concluso: "Le nostre scoperte evidenziano una lacuna critica negli approcci attuali alla sicurezza degli LLM. Dobbiamo trovare modi per rendere questi modelli più robusti, in modo che possano essere integrati nella nostra vita quotidiana con fiducia, assicurando che le loro potenti capacità siano utilizzate in modo sicuro e responsabile."

Questa ricerca solleva importanti questioni sulla sicurezza e l'affidabilità degli attuali sistemi di intelligenza artificiale. Sarà fondamentale continuare a studiare e migliorare la robustezza degli LLM per garantirne un utilizzo sicuro ed etico man mano che questi sistemi diventano sempre più integrati nella società.

L'etica dell'IA: sfide nella gestione delle richieste

> Studio EPFL: LLM recenti vulnerabili a manipolazioni semplici, nonostante addestramento sicuro. Rischio di comportamenti imprevisti o dannosi.

L'importanza dell'adattività nella valutazione della robustezza

Verso una maggiore sicurezza degli LLM