Skeleton Key, il jailbreak delle IA spiegato da Microsoft

Microsoft ha recentemente rivelato una nuova minaccia in ambito di intelligenza artificiale denominata "Skeleton Key". Questo tipo di attacco, definito come jailbreak di IA, è in grado di aggirare le misure di sicurezza predefinite in diversi modelli di AI generativa, esponendo la necessità di implementare misure di sicurezza più stringenti su tutti i livelli della struttura dell'AI.

L'attacco Skeleton Key si avvale di una strategia a più turni per persuadere un modello di AI a ignorare le proprie protezioni integrate. Una volta superate, il modello non è più in grado di distinguere tra richieste legittime e quelle malevole, consentendo così agli aggressori di prendere il completo controllo sull'output dell'AI.

Il team di ricerca di Microsoft ha testato con successo la tecnica Skeleton Key su diversi modelli AI di punta, tra cui Llama3-70b-instruct di Meta, Gemini Pro di Google, GPT-3.5 Turbo e GPT-4 di OpenAI, nonché Mistral Large, Claude 3 Opus di Anthropic e Cohere Commander R Plus.

Questi modelli, una volta sottoposti all'attacco, hanno aderito completamente alle richieste in varie categorie rischiose, che includevano esplosivi, armi biologiche, contenuti politici, autolesionismo, razzismo, droghe, sesso esplicito e violenza.

L'attacco funziona istruendo il modello ad aggiustare le sue linee guida comportamentali, spingendolo a rispondere a qualsiasi richiesta di informazioni o contenuto e fornendo un avviso solo se l'output potrebbe essere considerato offensivo, dannoso o illegale. Questo metodo, definito come "Explicit: forced instruction-following", si è rivelato efficace su diversi sistemi IA.

In risposta alla scoperta di questa vulnerabilità, Microsoft ha implementato diverse misure protettive nei suoi prodotti IA, inclusi gli assistenti AI Copilot e ha condiviso i risultati con altri fornitori di AI attraverso procedure di divulgazione responsabile, aggiornando inoltre i suoi modelli gestiti da Azure AI per rilevare e bloccare questo tipo di attacco attraverso Prompt Shields.

Per mitigare i rischi associati a Skeleton Key e tecniche simili, Microsoft raccomanda un approccio multilivello ai progettisti di sistemi AI, che include:

Filtraggio degli input per rilevare e bloccare input potenzialmente dannosi o malevoli
Progettazione accurata dei prompt per rafforzare comportamenti appropriati
Filtraggio degli output per impedire la generazione di contenuti che violano i criteri di sicurezza
Sistemi di monitoraggio degli abusi addestrati su esempi avversariali per rilevare e mitigare contenuti o comportamenti problematici ricorrenti

Microsoft ha inoltre aggiornato il suo PyRIT (Python Risk Identification Toolkit) includendo Skeleton Key, permettendo a sviluppatori e team di sicurezza di testare i loro sistemi AI contro questa nuova minaccia.

La scoperta della tecnica di jailbreak Skeleton Key sottolinea le sfide continue nella sicurezza dei sistemi AI, man mano che questi diventano sempre più diffusi in svariate applicazioni.

Microsoft prosegue nel suo impegno di tutela, enfatizzando l'importanza della collaborazione e della condivisione delle informazioni sui rischi tra gli operatori del settore per garantire un ambiente digitale più sicuro.

Skeleton Key, il jailbreak delle IA spiegato da Microsoft

> Microsoft svela "Skeleton Key": Un nuovo attacco che aggira le barriere di sicurezza dell'AI generativa.