Amazon propone nuovo benchmark IA per valutare RAG

Quest'anno è previsto un significativo sviluppo dell'intelligenza artificiale generativa (GenAI) nel settore aziendale, come sottolineato da numerosi esperti del settore. Una delle metodologie che potrebbero contribuire a questo sviluppo è la Retrieval-Augmented Generation (RAG), un sistema in cui un modello di linguaggio di grandi dimensioni viene collegato a un database contenente contenuti specifici del dominio, come i file aziendali. Tuttavia, la RAG è una tecnologia emergente che presenta diverse sfide.

Il Nuovo Sistema di Benchmarking Proposto da Amazon

Per affrontare queste sfide, i ricercatori di Amazon AWS hanno proposto un nuovo sistema di benchmarking in un recente articolo, intitolato "Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation", pubblicato sulla piattaforma preprint arXiv. Questo documento sarà presentato alla 41ª Conferenza Internazionale sull'Apprendimento Automatico, che si terrà dal 21 al 27 luglio a Vienna.

I ricercatori, guidati dall'autore principale Gauthier Guinet, sostengono che la loro metodologia offre una strategia automatica, efficiente in termini di costi, interpretabile e robusta per selezionare i componenti ottimali per un sistema RAG. Il loro sistema si basa sulla generazione automatica di esami a scelta multipla, specifici per i documenti associati a ogni compito, permettendo così una valutazione standardizzata, scalabile e interpretabile di diversi sistemi RAG.

Generazione delle Domande e Scenario di Test

Per mettere a punto questo sistema di benchmarking, i ricercatori generano coppie di domande e risposte attingendo da materiali provenienti da quattro diversi ambiti: i documenti di troubleshooting di AWS sui DevOps, gli abstract degli articoli scientifici sul server di preprint arXiv, le domande su StackExchange e i documenti della US Securities & Exchange Commission.

Essi poi elaborano test a scelta multipla per valutare la precisione con cui i vari modelli di linguaggio a larga scala (LLM) approcciano le risposte corrette. Due famiglie di LLM open-source sono state messe alla prova attraverso questi esami: Mistral, di una compagnia francese omonima, e Llama di Meta Properties.

I test sono condotti in tre scenari differenti: il primo è uno scenario "a libro chiuso", dove al LLM non è permesso accedere ai dati RAG e deve affidarsi unicamente ai suoi "parametri" neurali pre-allenati. Il secondo è quello che viene chiamato le forme "Oracle" di RAG, dove al LLM è dato accesso al documento esatto utilizzato per generare una domanda. Il terzo forma è il "recupero classico", dove il modello deve cercare attraverso l'intero set di dati per trovare il contesto di una domanda.

Conclusioni e Implicazioni del Benchmarking

I risultati degli esami, che riempiono numerose tabelle e grafici sulle prestazioni relative dei LLM e dei vari approcci RAG, evidenziano alcuni punti chiave. Una scoperta importante è che algoritmi RAG migliori possono incrementare significativamente le prestazioni di un LLM, più di quanto non farebbe semplicemente aumentando la dimensione del LLM stesso.

Questo è particolarmente rilevante considerando le crescenti preoccupazioni riguardo l'intensità delle risorse impiegate dalla GenAI. Se è possibile ottenere di più con meno, si tratta di una prospettiva preziosa da esplorare. Inoltre, i ricercatori hanno scoperto che se l'algoritmo RAG non funziona correttamente, può deteriorare le prestazioni del LLM rispetto alla versione standard senza RAG. "Un componente di recupero mal allineato può portare a una precisione peggiore rispetto a non avere alcun recupero," affermano Guinet e il suo team.

In conclusione, il continuo sviluppo e l'affinamento degli approcci RAG potrebbero svolgere un ruolo cruciale nel miglioramento delle prestazioni e nell'efficienza dei sistemi di intelligenza artificiale generativa nell'ambito aziendale.