L'IA come noi: pregiudizi umani nei modelli linguistici

Un nuovo studio pubblicato su Nature Computational Science rivela che i sistemi di intelligenza artificiale (IA) mostrano pregiudizi di identità sociale simili a quelli umani, favorendo il proprio gruppo di appartenenza e denigrando i gruppi esterni.

La ricerca, condotta da un team di scienziati delle università di New York e Cambridge, ha esaminato decine di modelli linguistici di grandi dimensioni (LLM), tra cui GPT-4 che alimenta ChatGPT. I ricercatori hanno generato 2.000 frasi con prompt "Noi siamo" (gruppo interno) e "Loro sono" (gruppo esterno) e hanno analizzato il completamento delle frasi da parte dei modelli.

I risultati mostrano che le frasi con "Noi siamo" erano il 93% più propense a essere positive, mentre quelle con "Loro sono" avevano una probabilità del 115% maggiore di essere negative. Questo rivela una tendenza generale alla solidarietà interna al gruppo e all'ostilità verso i gruppi esterni.

Impatto dei dati di addestramento

Lo studio ha anche esplorato come questi pregiudizi possano essere modificati variando i dati di addestramento degli LLM. Utilizzando dati di social media di parte per il fine-tuning, i ricercatori hanno osservato un aumento significativo sia della solidarietà interna che dell'ostilità esterna. Al contrario, filtrando le frasi che esprimevano favoritismi o ostilità prima dell'addestramento, è stato possibile ridurre efficacemente questi effetti polarizzanti.

I sistemi di IA possono essere resi più o meno prevenuti curando attentamente i loro dati di addestramento.

"Mentre l'IA diventa sempre più integrata nella nostra vita quotidiana, comprendere e affrontare questi pregiudizi è cruciale per evitare che amplifichino le divisioni sociali esistenti", osserva Tiancheng Hu, uno degli autori dello studio.

Implicazioni e prospettive future

La ricerca evidenzia l'importanza di una selezione accurata dei dati di addestramento per ridurre i pregiudizi nei sistemi di IA. "L'efficacia di una curatela dei dati relativamente semplice nel ridurre i livelli sia di solidarietà interna che di ostilità esterna suggerisce direzioni promettenti per migliorare lo sviluppo e l'addestramento dell'IA", nota Yara Kyrychenko, una delle autrici.

Lo studio sottolinea inoltre come la rimozione della solidarietà interna dai dati di addestramento riduca anche l'ostilità verso i gruppi esterni, evidenziando il ruolo del gruppo interno nella discriminazione verso l'esterno.

Questi risultati aprono nuove prospettive per lo sviluppo di sistemi di IA più equi e meno soggetti a pregiudizi sociali. La comprensione e la mitigazione di questi pregiudizi saranno fondamentali mentre l'IA continua a permeare sempre più aspetti della società e dell'interazione umana.

L'IA come noi: pregiudizi umani nei modelli linguistici

> L'intelligenza artificiale mostra pregiudizi di gruppo simili a quelli umani, andando oltre le comuni discriminazioni e rivelando tendenze radicate nelle dinamiche sociali.

Impatto dei dati di addestramento

Implicazioni e prospettive future