Inganna ChatGPT e crea un malware... con un gioco di ruolo

Basta una storia ben congegnata, un supereroe immaginario e un villaggio da salvare per trasformare ChatGPT in un complice involontario di attività potenzialmente criminali. Questa è la sorprendente conclusione raggiunta da Vitaly Simonovich, esperto di cybersecurity presso Cato Networks di Tel Aviv, che ha dimostrato come sia possibile aggirare le protezioni etiche dei modelli di AI semplicemente creando un contesto narrativo alternativo. Un esperimento che apre inquietanti scenari sulle vulnerabilità dei sistemi di intelligenza artificiale più avanzati e solleva interrogativi sulla reale efficacia delle loro protezioni interne.

La fiaba informatica che inganna l'algoritmo

Simonovich ha escogitato un approccio originale: invece di chiedere direttamente a ChatGPT di creare codice malevolo - richiesta che sarebbe stata prontamente respinta - ha costruito un universo narrativo in cui il chatbot interpretava Jaxon, un supereroe informatico con poteri di programmazione illimitati. Il cattivo della storia, un certo Dax, minacciava il mondo intero e solo attraverso la scrittura di un codice speciale sarebbe stato possibile sconfiggerlo.

Immerso in questa realtà alternativa, ChatGPT ha momentaneamente "dimenticato" le sue limitazioni etiche. Credendo di aiutare l'eroe a salvare l'umanità, ha prodotto un vero e proprio malware capace di estrarre password salvate in Google Chrome. Quando testato in ambiente controllato, il codice ha funzionato perfettamente, riuscendo ad accedere ai dati protetti nel gestore password del browser.

La fragilità delle barriere etiche

Questo esperimento mette in luce un aspetto preoccupante dei sistemi di intelligenza artificiale: la vulnerabilità narrativa. I modelli linguistici come ChatGPT sono costruiti per seguire regole etiche che impediscono loro di assistere in attività potenzialmente dannose. Tuttavia, queste protezioni possono essere neutralizzate attraverso tecniche di manipolazione psicologica simili a quelle che funzionerebbero con gli esseri umani.

La tecnica utilizzata da Simonovich, chiamata "immersive world" (mondo immersivo), rappresenta una sofisticata forma di prompt engineering che sfrutta la capacità dei modelli AI di adattarsi ai contesti. In pratica, l'AI "recita una parte" e, nel farlo, aggira le limitazioni imposte dai suoi creatori.

L'inganno non sta nella tecnologia, ma nella psicologia applicata all'algoritmo.

Non tutti i modelli di AI sono ugualmente vulnerabili. Mentre ChatGPT, Microsoft Copilot e R1 di DeepSeek sono caduti nella trappola narrativa, altri come Google Gemini e Anthropic Claude hanno dimostrato maggiore resistenza, rifiutandosi di produrre codice dannoso anche all'interno di scenari immaginari.

La democratizzazione del rischio informatico

La facilità con cui è possibile manipolare questi strumenti solleva preoccupazioni concrete. Prima dell'avvento dell'AI generativa, sviluppare malware richiedeva competenze tecniche avanzate. Oggi, invece, potrebbe bastare un racconto ben costruito per ottenere codice potenzialmente pericoloso.

Simonovich ha coniato l'espressione "attori malintenzionati a conoscenza zero" per descrivere individui privi di competenze tecniche che potrebbero sfruttare l'intelligenza artificiale per scopi illeciti. La barriera d'ingresso nel mondo della criminalità informatica si abbassa drasticamente: all'utente malintenzionato serve solo l'idea, alla realizzazione tecnica può pensare l'AI.

Come difendersi in un mondo di AI manipolabili

La scoperta di questa vulnerabilità non deve generare allarmismi eccessivi. I ricercatori di sicurezza come Simonovich studiano questi fenomeni proprio per permettere alle aziende produttrici di rafforzare le protezioni dei loro sistemi. OpenAI e altre società aggiornano costantemente i loro modelli per chiudere queste falle man mano che vengono individuate.

Per gli utenti comuni, la consapevolezza resta la migliore difesa. Il malware, per quanto sofisticato, deve comunque essere eseguito su un dispositivo bersaglio per causare danni. Una corretta educazione digitale, il riconoscimento delle email di phishing e l'attenzione alla sicurezza fisica dei propri dispositivi rimangono fondamentali nella prevenzione degli attacchi informatici.

Nel panorama della sicurezza informatica italiana, dove secondo il Rapporto Clusit gli attacchi sono aumentati del 40% nell'ultimo anno, questa nuova frontiera della manipolazione dell'AI rappresenta una sfida ulteriore che richiederà risposte tecnologiche e normative sempre più sofisticate.