I classificatori costituzionali si basano sul concetto di "IA costituzionale", che utilizza valori umani noti derivati da liste predefinite. Il team di Anthropic ha creato un elenco di 10.000 prompt proibiti in determinati contesti e spesso utilizzati per i jailbreak, traducendoli in più lingue e stili di scrittura per aumentarne l'efficacia.
Il sistema è stato testato sul modello Claude 3.5 Sonnet di Anthropic. Senza la nuova protezione, l'86% dei tentativi di jailbreak aveva successo. Con il nuovo sistema, la percentuale è scesa al 4,4%.
Per mettere alla prova l'efficacia del sistema, Anthropic ha offerto una ricompensa di $15.000 a chiunque riuscisse a eseguire un jailbreak universale su una versione protetta di Claude 3.5 Sonnet. Nonostante oltre 180 tentativi, nessuno è riuscito a reclamare il premio.
Funzionamento dei classificatori costituzionali
Il sistema utilizza classificatori che monitorano costantemente input e output del chatbot. Questi classificatori sono addestrati utilizzando una "costituzione" che definisce categorie di contenuti dannosi e innocui, permettendo un rapido adattamento a nuovi modelli di minaccia.La costituzione viene impiegata per generare dati sintetici utilizzati nell'addestramento. Inoltre, vengono utilizzati pool di input e output benigni, insieme a tecniche di data augmentation, per migliorare ulteriormente le prestazioni del sistema.
Questo approccio mira a bilanciare la necessità di bloccare contenuti potenzialmente pericolosi con quella di evitare "rifiuti eccessivi", ovvero il blocco di richieste innocue da parte del chatbot.
Implicazioni per la sicurezza dell'IA
Lo sviluppo di questo sistema di sicurezza rappresenta un importante passo avanti nella protezione dei chatbot e delle IA conversazionali. La capacità di contrastare efficacemente i jailbreak, in particolare quelli universali, è fondamentale per garantire un utilizzo sicuro e affidabile di queste tecnologie.Tuttavia, è probabile che la "corsa agli armamenti" tra sviluppatori di sistemi di sicurezza e utenti che cercano di aggirarli continuerà. Sarà cruciale monitorare l'evoluzione di queste tecniche di protezione e la loro efficacia nel tempo.
Il successo dei classificatori costituzionali potrebbe anche ispirare approcci simili in altri campi della sicurezza informatica e dell'IA, contribuendo a creare sistemi più robusti e affidabili in generale.
La ricerca di Anthropic dimostra l'importanza di un approccio proattivo alla sicurezza dell'IA, anticipando e contrastando potenziali minacce prima che possano causare danni significativi. Questo tipo di innovazione sarà sempre più cruciale man mano che l'IA diventerà più pervasiva e potente nella nostra società.