AI Superpotente: Le Leggi che Riscrivono il Futuro

L'intelligenza artificiale (AI) ha subito una trasformazione significativa, passando da una singola legge empirica, che associava maggiori risorse computazionali a modelli AI migliori, a tre leggi distinte che regolano l'impatto delle risorse di calcolo sulle prestazioni dei modelli. Queste leggi, denominate scaling pre-training, scaling post-training e scaling test-time (o long thinking), riflettono l'evoluzione del settore verso tecniche che sfruttano la potenza di calcolo in scenari d'uso AI sempre più complessi. Il recente avvento dello scaling test-time, che applica più risorse computazionali durante l'inferenza per migliorare l'accuratezza, ha favorito la nascita di modelli di ragionamento AI, una nuova categoria di modelli linguistici di grandi dimensioni (LLM) in grado di eseguire molteplici passaggi di inferenza per risolvere problemi complessi, delineando al contempo le fasi necessarie per portare a termine un compito.

Queste tre leggi di scaling dell'AI rappresentano un cambiamento fondamentale nel modo in cui sviluppiamo e utilizziamo l'intelligenza artificiale. Invece di concentrarci esclusivamente sull'aumento delle dimensioni dei modelli e dei dataset di training, stiamo ora esplorando come ottimizzare l'uso delle risorse computazionali in diverse fasi del processo di sviluppo dell'AI, dalla pre-formazione all'inferenza. Questo approccio più granulare ci consente di creare modelli AI più efficienti, accurati e adatti a una vasta gamma di applicazioni. L'ascesa dello scaling test-time, in particolare, evidenzia l'importanza di fornire ai modelli AI la capacità di ragionare e pianificare, aprendo nuove possibilità per l'utilizzo dell'AI in compiti complessi che richiedono un processo decisionale sofisticato.

Scaling pre-training: la legge originale dell'AI

Lo scaling pre-training rappresenta la legge originale dello sviluppo dell'AI. Questa legge ha dimostrato che, aumentando le dimensioni del dataset di training, il numero di parametri del modello e le risorse computazionali, gli sviluppatori potevano prevedere miglioramenti nell'intelligenza e nell'accuratezza del modello. Ciascuno di questi tre elementi – dati, dimensione del modello e calcolo – è interconnesso. Secondo la legge dello scaling pre-training, definita in questo studio, quando modelli più grandi vengono alimentati con più dati, le prestazioni complessive dei modelli migliorano. Per rendere ciò possibile, gli sviluppatori devono aumentare la loro capacità di calcolo, creando la necessità di potenti risorse di calcolo accelerato per eseguire quei carichi di lavoro di training più grandi.

Questo principio dello scaling pre-training ha portato a modelli di grandi dimensioni che hanno raggiunto capacità rivoluzionarie. Ha anche stimolato importanti innovazioni nell'architettura dei modelli, tra cui l'ascesa di modelli transformer con miliardi e trilioni di parametri, modelli mixture of experts e nuove tecniche di training distribuito, che richiedono tutte una potenza di calcolo significativa. La rilevanza della legge dello scaling pre-training continua a crescere, poiché gli esseri umani continuano a produrre quantità crescenti di dati multimodali. Questo tesoro di testo, immagini, audio, video e informazioni provenienti da sensori verrà utilizzato per addestrare potenti modelli AI futuri.

Lo scaling pre-training è il principio fondamentale dello sviluppo dell'AI, che collega la dimensione dei modelli, dei dataset e della potenza di calcolo ai progressi dell'AI. L'architettura mixture of experts, ad esempio, è un'architettura di modello popolare per il training dell'AI.

Scaling post-training: affinare i modelli per applicazioni specifiche

Il pre-training di un modello di fondazione di grandi dimensioni non è alla portata di tutti. Richiede investimenti significativi, esperti qualificati e dataset estesi. Tuttavia, una volta che un'organizzazione esegue il pre-training e rilascia un modello, abbatte le barriere all'adozione dell'AI, consentendo ad altri di utilizzare il modello pre-trained come base per adattarlo alle proprie applicazioni. Questo processo di post-training genera un'ulteriore domanda cumulativa di calcolo accelerato tra le aziende e la più ampia comunità di sviluppatori. I modelli open-source più diffusi possono avere centinaia o migliaia di modelli derivati, addestrati in numerosi domini.

Lo sviluppo di questo ecosistema di modelli derivati per una varietà di casi d'uso potrebbe richiedere circa 30 volte più calcolo rispetto al pre-training del modello di fondazione originale. Le tecniche di post-training possono migliorare ulteriormente la specificità e la rilevanza di un modello per il caso d'uso desiderato da un'organizzazione. Mentre il pre-training è come mandare un modello AI a scuola per imparare le competenze fondamentali, il post-training potenzia il modello con competenze applicabili al suo lavoro previsto. Un LLM, ad esempio, potrebbe essere post-addestrato per affrontare un compito come l'analisi del sentiment o la traduzione, oppure per comprendere il gergo di un dominio specifico, come l'assistenza sanitaria o il diritto.

La legge dello scaling post-training afferma che le prestazioni di un modello pre-trained possono migliorare ulteriormente, in termini di efficienza computazionale, accuratezza o specificità del dominio, utilizzando tecniche quali fine-tuning, pruning, quantizzazione, distilazione, reinforcement learning e aumento dei dati sintetici.

Il fine-tuning utilizza dati di training aggiuntivi per personalizzare un modello AI per domini e applicazioni specifici. Questo può essere fatto utilizzando i dataset interni di un'organizzazione o con coppie di input e output di modelli campione. La distilazione richiede una coppia di modelli AI: un modello teacher grande e complesso e un modello student leggero. Nella tecnica di distilazione più comune, chiamata distilazione offline, il modello student impara a imitare gli output di un modello teacher pre-trained.

Il reinforcement learning, o RL, è una tecnica di machine learning che utilizza un modello di ricompensa per addestrare un agente a prendere decisioni che si allineano con un caso d'uso specifico. L'agente mira a prendere decisioni che massimizzino le ricompense cumulative nel tempo mentre interagisce con un ambiente, ad esempio, un LLM chatbot che viene rinforzato positivamente dalle reazioni "pollice in su" degli utenti. Questa tecnica è nota come reinforcement learning from human feedback (RLHF). Un'altra tecnica più recente, il reinforcement learning from AI feedback (RLAIF), utilizza invece il feedback dei modelli AI per guidare il processo di apprendimento, semplificando gli sforzi di post-training.

Il best-of-n sampling genera più output da un modello linguistico e seleziona quello con il punteggio di ricompensa più alto in base a un modello di ricompensa. Viene spesso utilizzato per migliorare gli output di un'AI senza modificare i parametri del modello, offrendo un'alternativa al fine-tuning con reinforcement learning. I metodi di ricerca esplorano una gamma di potenziali percorsi decisionali prima di selezionare un output finale. Questa tecnica di post-training può migliorare iterativamente le risposte del modello.

Per supportare il post-training, gli sviluppatori possono utilizzare dati sintetici per aumentare o integrare il loro dataset di fine-tuning. L'integrazione di dataset del mondo reale con dati generati dall'AI può aiutare i modelli a migliorare la loro capacità di gestire casi limite che sono sottorappresentati o mancanti nei dati di training originali.

Lo scaling post-training perfeziona i modelli pre-trained utilizzando tecniche come il fine-tuning, il pruning e la distilazione per migliorare l'efficienza e la rilevanza del compito.

Sviluppare questo ecosistema di modelli derivati per una varietà di casi d'uso potrebbe richiedere circa 30 volte più calcolo rispetto al pre-training del modello di fondazione originale.

Scaling test-time: il ragionamento AI potenziato dal calcolo

Gli LLM generano risposte rapide ai prompt di input. Sebbene questo processo sia adatto per ottenere le risposte giuste a domande semplici, potrebbe non funzionare altrettanto bene quando un utente pone domande complesse. Rispondere a domande complesse, una capacità essenziale per i carichi di lavoro AI agentici, richiede all'LLM di ragionare sulla domanda prima di trovare una risposta. È simile al modo in cui pensa la maggior parte degli esseri umani: quando viene chiesto di sommare due più due, forniscono una risposta immediata, senza aver bisogno di parlare dei fondamenti dell'addizione o dei numeri interi. Ma se a una persona viene chiesto sul momento di sviluppare un piano aziendale che possa aumentare i profitti di un'azienda del 10%, è probabile che ragioni attraverso varie opzioni e fornisca una risposta in più passaggi.

Lo scaling test-time, noto anche come long thinking, avviene durante l'inferenza. Invece dei modelli AI tradizionali che generano rapidamente una risposta one-shot a un prompt utente, i modelli che utilizzano questa tecnica allocano uno sforzo computazionale extra durante l'inferenza, consentendo loro di ragionare attraverso molteplici potenziali risposte prima di arrivare alla risposta migliore. Su attività come la generazione di codice complesso e personalizzato per gli sviluppatori, questo processo di ragionamento AI può richiedere diversi minuti, o anche ore, e può facilmente richiedere oltre 100 volte il calcolo per query impegnative rispetto a un singolo passaggio di inferenza su un LLM tradizionale, che sarebbe altamente improbabile che produca una risposta corretta in risposta a un problema complesso al primo tentativo.

Questa capacità di calcolo test-time consente ai modelli AI di esplorare diverse soluzioni a un problema e di suddividere richieste complesse in più passaggi, in molti casi, mostrando il loro lavoro all'utente mentre ragionano. Gli studi hanno scoperto che lo scaling test-time si traduce in risposte di qualità superiore quando ai modelli AI vengono forniti prompt aperti che richiedono diversi passaggi di ragionamento e pianificazione.

La metodologia di calcolo test-time ha molti approcci, tra cui:

Chain-of-thought prompting: suddividere problemi complessi in una serie di passaggi più semplici.
Sampling with majority voting: generare più risposte allo stesso prompt, quindi selezionare la risposta che si ripete più frequentemente come output finale.
Search: esplorare e valutare più percorsi presenti in una struttura ad albero di risposte.

Metodi di post-training come il best-of-n sampling possono essere utilizzati anche per il long thinking durante l'inferenza per ottimizzare le risposte in linea con le preferenze umane o altri obiettivi. Lo scaling test-time migliora l'inferenza allocando calcolo extra per migliorare il ragionamento AI, consentendo ai modelli di affrontare efficacemente problemi complessi e multi-step.

Come lo scaling test-time abilita il ragionamento AI

L'ascesa del calcolo test-time sblocca la capacità per l'AI di offrire risposte ben ragionate, utili e più accurate a query utente complesse e aperte. Queste capacità saranno fondamentali per i compiti di ragionamento dettagliati e multi-step previsti dalle applicazioni AI agentiche autonome e AI fisiche. In tutti i settori, potrebbero aumentare l'efficienza e la produttività fornendo agli utenti assistenti altamente capaci per accelerare il loro lavoro.

Nel settore sanitario, i modelli potrebbero utilizzare lo scaling test-time per analizzare vaste quantità di dati e dedurre come progredirà una malattia, nonché prevedere potenziali complicazioni che potrebbero derivare da nuovi trattamenti basati sulla struttura chimica di una molecola di farmaco. Oppure, potrebbe esaminare un database di studi clinici per suggerire opzioni che corrispondano al profilo di malattia di un individuo, condividendo il suo processo di ragionamento sui pro e contro di diversi studi.

Nel commercio al dettaglio e nella logistica della supply chain, il long thinking può aiutare nel processo decisionale complesso necessario per affrontare le sfide operative a breve termine e gli obiettivi strategici a lungo termine. Le tecniche di ragionamento possono aiutare le aziende a ridurre i rischi e ad affrontare le sfide di scalabilità prevedendo e valutando più scenari contemporaneamente, il che potrebbe consentire una previsione della domanda più accurata, percorsi di viaggio della supply chain semplificati e decisioni di approvvigionamento che si allineano con le iniziative di sostenibilità di un'organizzazione.

E per le imprese globali, questa tecnica potrebbe essere applicata per redigere piani aziendali dettagliati, generare codice complesso per eseguire il debug del software o ottimizzare i percorsi di viaggio per camion di consegna, robot di magazzino e robotaxi.

I modelli di ragionamento AI si stanno evolvendo rapidamente. OpenAI o1-mini e o3-mini, DeepSeek R1 e Gemini 2.0 Flash Thinking di Google DeepMind sono stati tutti introdotti nelle ultime settimane e si prevede che seguiranno presto altri nuovi modelli.

Modelli come questi richiedono notevolmente più calcolo per ragionare durante l'inferenza e generare risposte corrette a domande complesse, il che significa che le imprese devono scalare le loro risorse di calcolo accelerato per fornire la prossima generazione di strumenti di ragionamento AI che possono supportare la risoluzione di problemi complessi, la codifica e la pianificazione multi-step.

L'articolo esplora le leggi di scala dell'Intelligenza Artificiale (AI), paragonandole alle leggi empiriche della natura. In particolare, si concentra su come l'incremento delle risorse computazionali influenzi le prestazioni dei modelli AI, suddividendo il processo in tre fasi distinte: pretraining scaling, post-training scaling e test-time scaling.

Il pretraining scaling, considerato la legge originale dello sviluppo dell'AI, stabilisce che incrementando la dimensione del dataset di training, il numero di parametri del modello e le risorse computazionali, si ottengono miglioramenti prevedibili nell'intelligenza e nell'accuratezza del modello. Questo principio ha portato alla creazione di modelli di grandi dimensioni con capacità rivoluzionarie, stimolando innovazioni nell'architettura dei modelli, come i modelli transformer e le tecniche di training distribuito.

Il post-training scaling, invece, si concentra sull'adattamento dei modelli pre-addestrati per applicazioni specifiche. Questo processo permette di migliorare l'efficienza computazionale, l'accuratezza e la specificità del dominio del modello attraverso tecniche come il fine-tuning, il pruning, la quantizzazione e il reinforcement learning. L'adozione di modelli open-source, adattati per una varietà di casi d'uso, richiede una quantità di calcolo notevolmente superiore rispetto al pre-training del modello originale.

Infine, il test-time scaling, noto anche come long thinking, si verifica durante l'inferenza e prevede l'allocazione di risorse computazionali aggiuntive per consentire ai modelli di ragionare attraverso molteplici potenziali risposte prima di arrivare alla soluzione migliore. Questa tecnica è particolarmente utile per rispondere a query complesse e per applicazioni di AI agentic, richiedendo un notevole incremento delle risorse computazionali.

Le leggi di scala dell'AI riflettono l'evoluzione del campo e l'importanza di utilizzare risorse computazionali in modo strategico per ottenere prestazioni ottimali. L'articolo evidenzia come il test-time scaling stia aprendo nuove frontiere nell'AI reasoning, consentendo ai modelli di affrontare problemi complessi con maggiore accuratezza e affidabilità.

Un cenno storico interessante riguarda il concetto di "AI winter", un periodo di stasi nella ricerca sull'AI negli anni '70 e '80, dovuto in parte alla limitata potenza di calcolo disponibile all'epoca. Questo dimostra come lo sviluppo dell'AI sia strettamente legato alla capacità di elaborazione dei computer.

"L'AI è come l'elettricità: trasformerà tutto." - Andrew Ng

In conclusione, le tre leggi di scala dell'AI delineano un quadro in cui la potenza di calcolo gioca un ruolo sempre più cruciale nello sviluppo di modelli intelligenti e capaci. Il futuro dell'AI dipenderà dalla nostra capacità di sfruttare al meglio queste leggi e di continuare a innovare nel campo dell'hardware e del software.