Nuova piattaforma open-source permette di valutare le performance dei chatbot con l'IA

Un team composto da informatici, ingegneri, matematici e scienziati cognitivi della University of Cambridge ha sviluppato una piattaforma di valutazione open-source denominata CheckMate. Questo strumento permette agli utenti di interagire con e valutare le prestazioni di grandi modelli linguistici (LLMs).

Nel testare CheckMate, i ricercatori hanno coinvolto partecipanti umani nell'uso di tre LLMs—InstructGPT, ChatGPT e GPT-4—come assistenti nella soluzione di problemi matematici a livello universitario. Nonostante una correlazione generale positiva tra la correttezza delle risposte dei chatbot e la loro utilità percepita, si sono verificati casi in cui le risposte errate si sono rivelate comunque utili ai partecipanti. Tuttavia, alcune risposte errate degli LLMs sono state percepite come corrette dai partecipanti, in particolare nei modelli ottimizzati per le chat.

I ricercatori suggeriscono che i modelli che comunicano l'incertezza, rispondono bene alle correzioni degli utenti e possono fornire una giustificazione concisa delle loro raccomandazioni, risultino essere migliori assistenti. È importante che gli utenti umani verifichino attentamente gli output degli LLMs, data la loro attuale limitazione. I risultati sono stati pubblicati sul Proceedings of the National Academy of Sciences e possono essere utilizzati per migliorare la formazione sulla letteratura AI e per aiutare gli sviluppatori a perfezionare gli LLMs per un ampio spettro di applicazioni.

"Gli LLMs sono diventati estremamente popolari e valutarne le prestazioni in modo quantitativo è importante, ma dobbiamo anche valutare quanto bene questi sistemi funzionano con e possono supportare le persone", ha dichiarato Albert Jiang, co-primo autore dello studio e membro del Dipartimento di Informatica e Tecnologia di Cambridge. La valutazione standard degli LLMs si basa su coppie fisse di input e output, ignorando la natura interattiva dei chatbot e come questo cambi la loro utilità in scenari diversi.

Il team di ricerca ha reclutato 25 matematici, dai studenti universitari ai professori senior, per interagire con i tre LLMs e valutarne le prestazioni utilizzando CheckMate. Ai partecipanti è stato chiesto di lavorare attraverso teoremi matematici di livello universitario con l'assistenza di un LLM e di valutare ogni singola risposta degli LLMs per correttezza e utilità. I partecipanti non sapevano con quale LLM stavano interagendo.

I ricercatori hanno osservato i tipi di domande poste dai partecipanti, come hanno reagito di fronte a risposte completamente o parzialmente errate e se e come hanno tentato di correggere l'LLM o chiesto chiarimenti. Un esempio di input efficace è "qual è la definizione di X", poiché i chatbot sono molto bravi a recuperare concetti noti e spiegarli agli utenti.

"Questo mostra quanto sia cruciale pensare attentamente a come utilizzare gli LLMs in modo efficace e appropriato", ha commentato Katie Collins, co-primo autore e membro del Department of Engineering. basandosi sui risultati ottenuti con CheckMate, i ricercatori affermano che le nuove generazioni di LLMs sono sempre più in grado di collaborare in modo utile e corretto con gli utenti umani in problemi di matematica di livello universitario, a patto che l'utente sia in grado di valutare la correttezza delle risposte generate dall'LLM.

Sebbene CheckMate sia stato testato su problemi matematici, i ricercatori affermano che la loro piattaforma potrebbe essere adattata a una vasta gamma di campi. In futuro, questo tipo di feedback potrebbe essere incorporato negli stessi LLMs, sebbene nessun feedback di CheckMate dallo studio attuale sia stato inserito nei modelli.

Questi strumenti possono aiutare la comunità di ricerca a comprendere meglio i punti di forza e di debolezza di questi modelli. "Non li useremmo come strumenti per risolvere problemi matematici complessi da soli, ma possono essere utili assistenti se gli utenti sanno come sfruttarli", ha concluso Collins.