Le parole che rivelano i testi scritti dall'intelligenza artificiale generativa

Le parole che rivelano i testi scritti dall'intelligenza artificiale generativa

> Da "approfondisce" a "mostra", alcune parole hanno conosciuto un boom nell'uso dopo che i LLM sono diventati di uso comune.

Il recente studio condotto da ricercatori delle Università di Tubinga e Northwestern ha rivelato un significativo aumento nell'utilizzo di modelli linguistici di grandi dimensioni (LLM) nella stesura di abstract scientifici.

La ricerca, pubblicata come pre-stampa questo mese, ha analizzato oltre 14 milioni di abstract di articoli scientifici su PubMed dal 2010 al 2024, esaminando le variazioni nella frequenza d'uso delle parole anno per anno. L'obiettivo era identificare cambiamenti improvvisi nel vocabolario scientifico che potessero essere attribuiti all'introduzione degli LLM alla fine del 2022.

Metodologia innovativa

I ricercatori si sono ispirati agli studi sull'impatto della pandemia di COVID-19, che misuravano l'eccesso di mortalità rispetto agli anni precedenti. Analogamente, hanno esaminato l'"eccesso di utilizzo di parole" dopo la diffusione degli strumenti di scrittura basati su LLM.

L'analisi ha rivelato un aumento improvviso e senza precedenti nella frequenza di certe "parole di stile" negli abstract scientifici a partire dal 2023.

Risultati sorprendenti

Alcune parole precedentemente rare hanno visto un'impennata nell'uso:

  • "Delves" (approfondisce) è apparsa 25 volte più spesso nel 2024 rispetto al trend pre-LLM
  • "Showcasing" (mettere in mostra) e "underscores" (sottolinea) sono aumentate di 9 volte

Anche termini già comuni sono diventati notevolmente più frequenti:

  • "Potential" (potenziale) è aumentato del 4,1%
  • "Findings" (risultati) del 2,7%
  • "Crucial" (cruciale) del 2,6%

Un fenomeno senza precedenti

Prima del 2023, aumenti così marcati e improvvisi nell'uso di certe parole erano legati solo a eventi sanitari globali, come l'epidemia di Ebola nel 2015 o la pandemia di COVID-19 dal 2020 al 2022.

Nel periodo post-LLM, invece, i ricercatori hanno individuato centinaia di parole con aumenti improvvisi e pronunciati, senza alcun legame con eventi mondiali. Queste erano principalmente "parole di stile" come verbi, aggettivi e avverbi.

Stima dell'impatto degli LLM

Basandosi su misure statistiche della presenza di queste "parole marcatore" nei singoli articoli, i ricercatori stimano che almeno il 10% degli abstract pubblicati dopo il 2022 sia stato scritto con l'assistenza di LLM. Questa percentuale potrebbe essere addirittura superiore, considerando che potrebbero esserci abstract assistiti da LLM che non contengono nessuna delle parole marcatore identificate.

Implicazioni per la comunità scientifica

Questo studio apre nuove prospettive sulla diffusione dell'uso degli LLM nella scrittura scientifica. La capacità di identificare tracce dell'utilizzo di questi strumenti potrebbe avere implicazioni significative per la valutazione della produzione scientifica e per le politiche editoriali delle riviste accademiche.

Logo AiBay