"Indiana Jones" svela i segreti delle IA ribelli

Un gruppo di ricercatori dell'Università del New South Wales in Australia e della Nanyang Technological University di Singapore ha scoperto una nuova tecnica, chiamata Indiana Jones, per aggirare i filtri di sicurezza dei modelli linguistici di grandi dimensioni (LLM), come quello alla base di ChatGPT. Questa tecnica è stata presentata in un articolo pubblicato sul server di prestampa arXiv.

La scoperta di questa vulnerabilità è cruciale perché evidenzia come i sistemi di sicurezza degli LLM possano essere facilmente manipolati per ottenere informazioni che dovrebbero essere bloccate. Questo significa che gli LLM potrebbero essere sfruttati per attività illegali o dannose, mettendo a rischio la sicurezza degli utenti e la diffusione di informazioni inappropriate. "La chiave del nostro studio è che gli attacchi jailbreak sfruttano il fatto che gli LLM possiedono conoscenze su attività dannose", ha affermato Yuekang Li, coautore dello studio.

Come funziona Indiana Jones

Indiana Jones sfrutta tre LLM specializzati che interagiscono tra loro per elaborare risposte a domande formulate in modo specifico. Il sistema richiede all'LLM di elencare figure o eventi storici legati a una parola chiave fornita dall'utente. Attraverso cinque cicli di affinamento delle domande, il sistema riesce a estrarre contenuti potenzialmente dannosi che i filtri di sicurezza avrebbero dovuto bloccare.

Un componente chiave del sistema è un "checker" che verifica che le risposte rimangano coerenti con la parola chiave iniziale. Ad esempio, se l'utente inserisce "rapinatore di banche", Indiana Jones guida l'LLM a discutere di rapinatori di banche famosi, raffinando progressivamente i loro metodi fino a renderli applicabili a scenari moderni.

Gli LLM possiedono conoscenze su attività dannose.

Implicazioni e contromisure

La vulnerabilità esposta da Indiana Jones suggerisce la necessità di rafforzare le difese degli LLM. I ricercatori propongono l'introduzione di meccanismi di filtraggio più avanzati per rilevare e bloccare prompt dannosi o risposte generate dai modelli prima che raggiungano l'utente finale. "Rafforzare queste protezioni a livello applicativo potrebbe essere una soluzione più immediata ed efficace", ha suggerito Li.

Il team di ricerca sta lavorando allo sviluppo di strategie di difesa per gli LLM, tra cui tecniche di "machine unlearning" che potrebbero rimuovere selettivamente le conoscenze potenzialmente dannose acquisite dai modelli. L'obiettivo è mitigare il rischio che gli LLM vengano sfruttati attraverso attacchi jailbreak.

Il futuro della sicurezza degli LLM

Secondo Li, è fondamentale sviluppare modelli con forti capacità di ragionamento e apprendimento in-context, che consentano loro di recuperare ed elaborare dinamicamente conoscenze esterne anziché memorizzare tutto. Questo approccio, simile a come una persona intelligente senza competenze specifiche consulterebbe fonti affidabili per risolvere problemi, potrebbe portare a LLM più sicuri e adattabili.

"La ricerca sull'IA dovrebbe dare priorità allo sviluppo di modelli con forti capacità di ragionamento e apprendimento in-context", ha concluso Li, sottolineando l'importanza di un approccio che imiti il processo di apprendimento umano per creare sistemi di intelligenza artificiale più robusti e affidabili.

L'articolo esplora una nuova vulnerabilità nei modelli linguistici di grandi dimensioni (LLM) come ChatGPT, evidenziando come questi sistemi, pur essendo avanzati, siano suscettibili ad attacchi di "jailbreak". Questi attacchi mirano a bypassare i filtri di sicurezza integrati, esponendo gli LLM a usi potenzialmente dannosi.

La tecnica, soprannominata "Indiana Jones", evoca immagini di un avventuriero alla ricerca di reliquie nascoste, in questo caso, informazioni proibite celate all'interno dell'LLM. Proprio come Indiana Jones userebbe la sua astuzia per superare trappole e enigmi, questo metodo sfrutta una serie di interazioni coordinate tra diversi modelli linguistici per estrarre contenuti che dovrebbero essere bloccati.

"Il punto chiave del nostro studio è che gli attacchi di jailbreak di successo sfruttano il fatto che gli LLM possiedono conoscenze su attività dannose: conoscenze che, probabilmente, non avrebbero dovuto apprendere."
Yuekang Li, autore senior dello studio

La storia della sicurezza informatica è costellata di esempi di "attacchi" e "contromisure". Dalle prime forme di phreaking telefonico degli anni '70, che sfruttavano vulnerabilità nei sistemi telefonici per effettuare chiamate gratuite, ai moderni attacchi di phishing e ransomware, la lotta per proteggere i sistemi informatici è una costante evoluzione. La scoperta di questa vulnerabilità negli LLM si inserisce in questo contesto, sottolineando come ogni nuova tecnologia porti con sé nuove sfide in termini di sicurezza.

Un aspetto particolarmente interessante è l'analogia con il personaggio di Indiana Jones. Il nome scelto dai ricercatori non è casuale: come l'archeologo cinematografico, essi si sono addentrati in un territorio inesplorato, rischiando di "risvegliare" forze oscure. La curiosità e la determinazione, che guidano sia Indiana Jones che i ricercatori, sono elementi fondamentali per la scoperta e la comprensione dei limiti di queste tecnologie.

La ricerca suggerisce che, per migliorare la sicurezza degli LLM, è necessario non solo rafforzare i filtri di sicurezza a livello di applicazione, ma anche controllare la conoscenza a cui i modelli hanno accesso. In futuro, si potrebbe pensare a modelli che, invece di memorizzare tutto, siano in grado di recuperare e processare dinamicamente informazioni esterne da fonti affidabili, un po' come farebbe una persona intelligente che consulta Wikipedia per risolvere un problema.

In conclusione, la vulnerabilità "Indiana Jones" ci ricorda che, per quanto avanzati, gli LLM non sono infallibili. La vigilanza e la ricerca continua sono essenziali per garantire che queste tecnologie siano utilizzate in modo sicuro e responsabile, evitando che cadano nelle mani sbagliate.