Il problema della calibrazione degli LLM è particolarmente rilevante dato il loro crescente utilizzo in una vasta gamma di applicazioni. Un modello mal calibrato potrebbe fornire risposte errate con un'elevata confidenza, portando a decisioni sbagliate da parte degli utenti.
"Con Thermometer, vogliamo fornire all'utente un segnale chiaro per dire loro se la risposta di un modello è accurata o inaccurata, in un modo che rifletta l'incertezza del modello, così che sappiano se quel modello è affidabile", spiega Maohao Shen, studente di ingegneria elettrica e informatica e autore principale dello studio.
Come funziona Thermometer
Thermometer sfrutta una tecnica classica chiamata "temperature scaling" per calibrare efficacemente un LLM su un nuovo compito. Invece di utilizzare un dataset etichettato specifico per ogni nuovo compito, cosa spesso impraticabile, Thermometer viene addestrato su una collezione di dataset rappresentativi e può poi generalizzare a nuovi compiti simili.Il modello ausiliario di Thermometer accede solo a una piccola parte del funzionamento interno dell'LLM per prevedere la giusta "temperatura" necessaria a calibrare le sue previsioni. Questo approccio non richiede molteplici sessioni di addestramento e rallenta solo leggermente l'LLM.
Nei test comparativi su diversi compiti, Thermometer ha prodotto costantemente misure di incertezza meglio calibrate rispetto ad altri metodi, richiedendo al contempo molta meno potenza di calcolo.
Prospettive future
I ricercatori intendono adattare Thermometer per compiti di generazione di testo più complessi e applicarlo a LLM ancora più grandi. Inoltre, mirano a quantificare la diversità e il numero di dataset etichettati necessari per addestrare un modello Thermometer in grado di generalizzare efficacemente a nuovi compiti.Un aspetto interessante emerso dallo studio è che un modello Thermometer addestrato su un LLM più piccolo può essere direttamente applicato per calibrare un LLM più grande della stessa famiglia di modelli.
Questa ricerca rappresenta un passo importante verso lo sviluppo di LLM più affidabili e trasparenti, fornendo agli utenti uno strumento per valutare meglio quando fidarsi delle risposte generate da questi potenti sistemi di intelligenza artificiale.
L'intelligenza artificiale e i modelli linguistici di grandi dimensioni (LLM) hanno una storia affascinante che risale agli albori dell'informatica. Già negli anni '50, pionieri come Alan Turing si interrogavano sulla possibilità di creare macchine in grado di pensare e comunicare come gli esseri umani.
Il concetto di modello linguistico ha radici profonde nella linguistica computazionale. Negli anni '80, i primi modelli statistici del linguaggio iniziarono a emergere, ma erano limitati dalla potenza di calcolo disponibile e dalla scarsità di dati.
Con l'avvento del deep learning e l'esplosione dei big data negli anni 2010, i modelli linguistici hanno fatto passi da gigante. Il 2018 ha segnato una svolta con l'introduzione di BERT da parte di Google, che ha aperto la strada ai moderni LLM.
L'intelligenza artificiale è il nuovo elettricità
, affermava Andrew Ng nel 2017, prevedendo l'impatto rivoluzionario che l'AI avrebbe avuto su ogni settore.
Una curiosità interessante riguarda il nome "GPT" (Generative Pre-trained Transformer), uno dei più famosi LLM. Il termine "trasformatore" si riferisce all'architettura neurale innovativa introdotta nel 2017 che ha rivoluzionato l'elaborazione del linguaggio naturale.
La calibrazione dei modelli, come quella proposta da Thermometer, affonda le sue radici nelle tecniche statistiche classiche. La "temperature scaling", ad esempio, è stata originariamente sviluppata per migliorare le previsioni meteorologiche negli anni '70.
Un aspetto affascinante degli LLM è la loro capacità di emergent behavior, ovvero di esibire comportamenti complessi e inaspettati che non sono stati esplicitamente programmati. Questo fenomeno ricorda per certi versi l'emergere della coscienza nei sistemi biologici complessi, un tema che ha affascinato filosofi e scienziati per secoli.
La ricerca sulla calibrazione degli LLM si inserisce in un contesto più ampio di AI etica e responsabile. Con il crescente utilizzo di questi sistemi in ambiti critici come la medicina e la giustizia, garantire l'affidabilità e la trasparenza delle loro previsioni diventa fondamentale.
Infine, è interessante notare come la collaborazione tra istituzioni accademiche e aziende tecnologiche, come nel caso del MIT e IBM, stia diventando sempre più comune nel campo dell'AI. Questa sinergia tra ricerca pura e applicata promette di accelerare lo sviluppo di tecnologie innovative come Thermometer.