La ricerca, condotta da un team di scienziati delle università di New York e Cambridge, ha esaminato decine di modelli linguistici di grandi dimensioni (LLM), tra cui GPT-4 che alimenta ChatGPT. I ricercatori hanno generato 2.000 frasi con prompt "Noi siamo" (gruppo interno) e "Loro sono" (gruppo esterno) e hanno analizzato il completamento delle frasi da parte dei modelli.
I risultati mostrano che le frasi con "Noi siamo" erano il 93% più propense a essere positive, mentre quelle con "Loro sono" avevano una probabilità del 115% maggiore di essere negative. Questo rivela una tendenza generale alla solidarietà interna al gruppo e all'ostilità verso i gruppi esterni.
Impatto dei dati di addestramento
Lo studio ha anche esplorato come questi pregiudizi possano essere modificati variando i dati di addestramento degli LLM. Utilizzando dati di social media di parte per il fine-tuning, i ricercatori hanno osservato un aumento significativo sia della solidarietà interna che dell'ostilità esterna. Al contrario, filtrando le frasi che esprimevano favoritismi o ostilità prima dell'addestramento, è stato possibile ridurre efficacemente questi effetti polarizzanti.
"Mentre l'IA diventa sempre più integrata nella nostra vita quotidiana, comprendere e affrontare questi pregiudizi è cruciale per evitare che amplifichino le divisioni sociali esistenti", osserva Tiancheng Hu, uno degli autori dello studio.
Implicazioni e prospettive future
La ricerca evidenzia l'importanza di una selezione accurata dei dati di addestramento per ridurre i pregiudizi nei sistemi di IA. "L'efficacia di una curatela dei dati relativamente semplice nel ridurre i livelli sia di solidarietà interna che di ostilità esterna suggerisce direzioni promettenti per migliorare lo sviluppo e l'addestramento dell'IA", nota Yara Kyrychenko, una delle autrici.
Lo studio sottolinea inoltre come la rimozione della solidarietà interna dai dati di addestramento riduca anche l'ostilità verso i gruppi esterni, evidenziando il ruolo del gruppo interno nella discriminazione verso l'esterno.
Questi risultati aprono nuove prospettive per lo sviluppo di sistemi di IA più equi e meno soggetti a pregiudizi sociali. La comprensione e la mitigazione di questi pregiudizi saranno fondamentali mentre l'IA continua a permeare sempre più aspetti della società e dell'interazione umana.