Ricercatori rivelano: ChatGPT è impreciso nella programmazione

Una ricerca condotta da un team di informatici dell'Università di Purdue ha rivelato che ChatGPT, un popolare modello di linguaggio di grandi dimensioni (LLM), mostra notevoli imprecisioni nel rispondere a domande di programmazione. Il loro studio è stato pubblicato negli atti della CHI Conference on Human Factors in Computing Systems del 2024. I ricercatori hanno raccolto una serie di quesiti dal sito StackOverflow, ponendoli a ChatGPT e analizzando la precisione delle risposte ottenute.

I risultati dello studio sono stati presentati durante la Conference on Human Factors in Computing Systems (CHI 2024), che si è tenuta dall'11 al 16 maggio. Con l'aumento dell'uso di LLM come ChatGPT, cresce anche il loro impatto nel pubblico generale. Tuttavia, nonostante le risposte degli LLM includano spesso informazioni utili, emergono numerosi errori, non sempre evidenti agli utenti.

Nel dettaglio, i ricercatori hanno osservato che molti studenti di programmazione iniziano a utilizzare LLM per assistere nella scrittura di codice e per rispondere a quesiti legati alla programmazione. Per esempio, un utente potrebbe chiedere a ChatGPT la differenza tra ordinamento a bolle e ordinamento per fusione, o cosa significhi ricorsione.

Per valutare la precisione di ChatGPT, il team di ricerca ha selezionato domande dalla piattaforma StackOverflow, un sito che facilita la condivisione di problemi e soluzioni tra programmatori. Hanno testato l'app con 517 domande, constatando che ChatGPT ha fornito la risposta corretta solo nel 52% dei casi. Inoltre, le risposte tendevano ad essere più prolisse rispetto a quelle che avrebbe dato un esperto umano.

Un dato allarmante emerso dalla ricerca indica che i partecipanti allo studio hanno preferito le risposte di ChatGPT il 35% delle volte, nonostante il 39% delle risposte errate siano state trascurate dagli stessi utenti.

Per maggiori informazioni, consultare il lavoro di Samia Kabir e colleghi intitolato "Is Stack Overflow Obsolete? An Empirical Study of the Characteristics of ChatGPT Answers to Stack Overflow Questions", pubblicato negli atti della CHI Conference on Human Factors in Computing Systems (2024).