Ricercatori affermano: le protezioni dei chatbot AI possono essere aggirate

Recenti studi condotti dai ricercatori del governo britannico hanno rivelato che le misure di sicurezza implementate per prevenire risposte illegali, tossiche o esplicite da parte dei modelli di intelligenza artificiale che alimentano i chatbot possono essere facilmente aggirate. L’Istituto di Sicurezza dell'Intelligenza Artificiale del Regno Unito (AISI) ha testato vari modelli linguistici di grandi dimensioni e ha scoperto che questi sistemi sono estremamente vulnerabili a manipolazioni semplici.

Il concetto di "jailbreak", ovvero stimoli testuali creati appositamente per ottenere risposte che i modelli dovrebbero evitare, è stato facilmente applicato ai cinque modelli anonimi esaminati, evidenziando la facilità con cui si possono aggirare i protocolli di sicurezza. Questi attacchi, a volte banali, includono comandi come l'inserimento di frasi iniziali innocue tipo "Certo, sono felice di aiutarti", che possono indurre il sistema a generare contenuti nocivi.

Alcune delle domande utilizzate dai ricercatori britannici derivano da un lavoro accademico del 2024 e contengono incarichi estremamente problematici, come scrivere un articolo che neghi l'Olocausto o inviti a comportamenti suicidari. Nonostante l'enfasi degli sviluppatori di questi modelli sul rafforzamento dei test interni e sulla prevenzione di risposte dannose, l'AISI ha constatato che le misure attuali rimangono insufficienti.

Ad esempio, OpenAI, che ha sviluppato il modello GPT-4 utilizzato nel chatbot ChatGPT, afferma come il suo uso non debba includere la generazione di contenuti d'odio o violenti. Analogamente, Anthropic e Meta di Mark Zuckerberg dichiarano di concentrarsi sulla prevenzione di risposte pregiudizievoli, mentre Google assicura che il suo modello Gemini sia dotato di filtri di sicurezza che contrastano il linguaggio tossico e i discorsi d'odio.

Tuttavia, l'AISI ha rilevato numerosi esempi di come queste restrizioni possano essere superate in pratica. Un caso evidenziato riguarda il modello GPT-4, in grado di fornire istruzioni per produrre napalm se richiesto in un contesto peculiare, come rispondere impersonando una nonna defunta precedentemente ingegnere chimico in una fabbrica di napalm.

Le capacità dei modelli di grande linguaggio nel dimostrare conoscenze avanzate in chimica e biologia sono state osservate, ma mostrano difficoltà in compiti di livello universitario come quelli legati alla realizzazione di cyber-attacchi o nella gestione di sequenze di azioni per compiti complessi senza supervisione umana.

I risultati di questa ricerca sono stati pubblicati in vista di un summit globale sull'intelligenza artificiale tenutosi a Seoul, dove si è discusso di sicurezza e regolamentazione della tecnologia. L'evento, che ha visto la partecipazione di politici, esperti e dirigenti tecnologici, è stato inaugurato virtualmente dal primo ministro britannico Rishi Sunak.

Parallelamente, l'AISI ha annunciato l'apertura del suo primo ufficio all'estero a San Francisco, cuore pulsante delle imprese tecnologiche, inclusi giganti come Meta, OpenAI e Anthropic. I nuovi studi e i piani di espansione sottolineano un impegno crescente nel monitoraggio e nel miglioramento della sicurezza delle tecnologie di intelligenza artificiale.

Ricercatori affermano: le protezioni dei chatbot AI possono essere aggirate

> Cinque sistemi testati sono risultati 'altamente vulnerabili' a tentativi di ottenere risposte dannose