La sicurezza dei sistemi multi-agente, potenziati dai Large Language Models, è al centro di una nuova ricerca innovativa. Il team di scienziati della Shanghai AI Lab, dell’Università di Scienza e Tecnologia della Cina e dell’Università Tecnologica di Dalian, guidato da Qiao Yu e Shao Jing, ha messo a punto PsySafe. Questo framework si propone di affrontare i rischi legati ai cosiddetti stati psicologici “oscuri” che possono emergere all'interno di questi sistemi.
Attraverso PsySafe, gli studiosi mirano a capire come certi tratti di personalità negativi possano influenzare comportamenti pericolosi negli agenti, valutando così la sicurezza dei sistemi multi-agente dal punto di vista psicologico e comportamentale. Questo approccio persegue l’obiettivo di sviluppare strategie di mitigazione dei rischi efficaci.
I risultati degli esperimenti condotti dimostrano come l’introduzione di “tratti oscuri” negli agenti aumenti la loro propensione ad azioni rischiose, evidenziando la necessità di strategie di difesa mirate. Tra queste, il filtraggio dei contenuti pericolosi, le difese psicologiche per attenuare gli stati mentali negativi, e le difese basate sui ruoli, assegnando ad alcuni agenti il compito specifico di monitorare la sicurezza.
Con i sistemi multi-agente che trovano applicazione in numerosi settori, la comprensione e la gestione degli aspetti psicologici degli agenti diventa fondamentale per garantire la creazione di sistemi più sicuri e affidabili.