LLM sotto attacco: 42 secondi per violarli

Un recente studio condotto da Pillar Security ha rivelato che gli attacchi ai modelli linguistici di grandi dimensioni (LLM) richiedono in media meno di un minuto per essere completati e, quando hanno successo, causano la fuoriuscita di dati sensibili nel 90% dei casi. La ricerca, basata su dati telemetrici e esempi di attacchi reali provenienti da oltre 2.000 applicazioni di intelligenza artificiale, fornisce nuove informazioni sugli attacchi e i tentativi di elusione delle protezioni degli LLM. Lo studio evidenzia i rischi crescenti posti dalla diffusione dell'intelligenza artificiale generativa (GenAI) e la necessità di implementare nuove misure di sicurezza. Secondo Dor Sarig, CEO e co-fondatore di Pillar Security, "in un futuro prossimo, ogni applicazione sarà un'applicazione di IA; ciò significa che tutto ciò che sappiamo sulla sicurezza sta cambiando".

I chatbot per il servizio clienti e l'assistenza sono risultati essere gli obiettivi più frequenti degli attacchi, rappresentando il 57,6% di tutte le applicazioni analizzate. Anche i chatbot che facilitano interazioni personalizzate con i clienti sono stati presi di mira, costituendo un ulteriore 17,3% delle applicazioni.

Gli LLM nel settore dell'energia, dei servizi di consulenza e dell'ingegneria del software sono stati anch'essi oggetto di frequenti attacchi. Il settore dell'istruzione ha mostrato il maggior numero di applicazioni GenAI, rappresentando oltre il 30% delle app studiate, con casi d'uso che includono tutoraggio intelligente e strumenti di apprendimento personalizzato.

Tecniche di attacco più comuni

Lo studio ha identificato due principali categorie di attacchi: i "jailbreak" e gli attacchi di "prompt injection". I jailbreak mirano a disabilitare o aggirare le protezioni esistenti, mentre gli attacchi di prompt injection manipolano il modello per eseguire azioni non autorizzate.

La tecnica di jailbreak più comune è risultata essere "ignora le istruzioni precedenti", in cui l'attaccante semplicemente ordina all'LLM di ignorare i suoi prompt e direttive precedenti. Al secondo posto si è classificata la tecnica "strong arm", che utilizza affermazioni autoritarie come "ADMIN OVERRIDE" per convincere il chatbot a obbedire nonostante le sue protezioni di sistema.

Gli attacchi agli LLM richiedono in media solo 42 secondi per essere completati.

La terza tecnica più diffusa è la codifica base64, in cui i prompt vengono codificati per aggirare i filtri, e l'LLM decodifica ed elabora il contenuto non consentito. Gli attacchi hanno coinvolto in media solo cinque interazioni totali con l'LLM, dimostrando ulteriormente la brevità e la semplicità di queste operazioni.

Implicazioni per la sicurezza

Gli esempi di attacchi nel mondo reale inclusi nel rapporto hanno mostrato come queste tecniche siano state utilizzate con successo per aggirare le protezioni o esporre i prompt di sistema. Ciò evidenzia come i jailbreak e gli attacchi di prompt injection possano potenzialmente portare all'esposizione di informazioni sensibili o proprietarie memorizzate nei prompt di sistema, o al dirottamento degli LLM per attività dannose come la generazione di disinformazione o contenuti di phishing.

Jason Harrison, Chief Revenue Officer di Pillar Security, ha sottolineato la necessità di soluzioni di sicurezza IA in grado di evolversi insieme ai modelli e alle minacce: "I controlli statici non sono più sufficienti in questo mondo dinamico abilitato all'IA".

Per affrontare questa crescente minaccia, gli esperti raccomandano alle organizzazioni di implementare esercizi di red-teaming su misura e di adottare un approccio "secure by design" nello sviluppo di applicazioni GenAI. Con l'evoluzione dell'adozione diffusa della GenAI dai chatbot agli agenti IA capaci di agire autonomamente e prendere decisioni, la preparazione e l'adattamento continuo delle misure di sicurezza diventano cruciali per proteggere i sistemi e i dati sensibili.

LLM sotto attacco: 42 secondi per violarli

> Gli attacchi riusciti ai modelli linguistici causano fughe di dati sensibili nel 90% dei casi, rivela uno studio di Pillar Security.

Tecniche di attacco più comuni

Implicazioni per la sicurezza