Google introduce il Nested Learning

L'intelligenza artificiale continua a confrontarsi con uno dei suoi limiti più insidiosi: il cosiddetto catastrophic forgetting, ovvero la tendenza dei modelli di deep learning a perdere le conoscenze acquisite quando vengono addestrati su nuovi compiti. Google Research ha presentato alla conferenza NeurIPS 2025 un approccio radicalmente diverso chiamato Nested Learning, che ridefinisce l'architettura stessa delle reti neurali come un sistema gerarchico di problemi di ottimizzazione interconnessi, ciascuno operante con propri flussi di contesto e frequenze di aggiornamento. La proposta, documentata nel paper "Nested Learning: The Illusion of Deep Learning Architectures", sfida la separazione tradizionale tra progettazione architettonica e algoritmi di ottimizzazione, trattandoli invece come livelli di un unico framework unificato.

Il problema del catastrophic forgetting rappresenta una sfida particolarmente rilevante per i Large Language Models attuali, dove il fine-tuning su nuovi dataset o task specifici può degradare significativamente le performance su capacità precedentemente acquisite. Mentre le strategie convenzionali di continual learning tentano di mitigare questo fenomeno attraverso tecniche come l'elastic weight consolidation o il rehearsal di esempi passati, l'approccio di Google assume una prospettiva più radicale: secondo i ricercatori di Mountain View, il problema risiede nella concezione stessa di come archittetture e ottimizzatori vengano trattati come entità separate.

La chiave di Nested Learning sta nel formalizzare sia gli ottimizzatori che gli elementi architetturali come sistemi di memoria associativa, definendoli come funzioni di mappatura tra punti dati e segnali di errore o relazioni sequenziali. Questo framework teorico permette di concepire l'apprendimento come un processo che avviene attraverso uno spettro di moduli, ciascuno dei quali gestisce il proprio ciclo informativo interno e la propria frequenza di aggiornamento. L'intuizione è che livelli diversi della rete debbano operare su scale temporali differenti, analogamente a quanto osservato nella neuroplasticità umana, dove meccanismi di apprendimento a breve e lungo termine coesistono e si integrano.

Per validare questi principi teorici, il team di Google Research ha sviluppato Hope, un'architettura ricorrente auto-modificante costruita sui moduli di memoria Titans ma potenziata con continuum memory systems (CMS). La struttura CMS consente tassi di aggiornamento variabili tra componenti di memoria diverse, creando quello che gli autori definiscono un sistema a frequenze multiple. Questa capacità di ottimizzazione nidificata permette modifiche auto-referenziali e l'integrazione di nuovi dati senza dover scartare informazioni esistenti, affrontando così direttamente il problema del forgetting catastrofico.

Hope produce perplexity inferiori e accuracy superiori rispetto a transformer standard e modelli ricorrenti su diversi benchmark pubblici di language modelling e reasoning

Nei test condotti dal team di ricerca, Hope ha dimostrato metriche di performance superiori ai modelli baseline. Le misurazioni hanno registrato valori di perplexity più bassi e tassi di accuracy più elevati rispetto sia ai transformer tradizionali che ai modelli ricorrenti convenzionali, su una serie di benchmark pubblici di language modelling e ragionamento. Questi risultati suggeriscono che l'architettura a memoria continua può effettivamente preservare meglio le conoscenze durante l'apprendimento sequenziale di nuovi task, pur mantenendo capacità competitive sulle metriche standard di valutazione.

Dal punto di vista architetturale, Hope si distingue per la sua capacità di modulare la frequenza di aggiornamento dei parametri in modo differenziato. Mentre nei transformer classici tutti i layer vengono aggiornati con lo stesso ritmo durante il training, e nei modelli ricorrenti tradizionali lo stato nascosto viene aggiornato a ogni step temporale, il sistema CMS di Hope permette a diverse componenti di memoria di persistere e modificarsi su scale temporali differenti. Questa caratteristica crea una gerarchia di rappresentazioni che riflette più fedelmente la struttura gerarchica delle informazioni nel mondo reale e nei processi cognitivi umani.

La proposta di Nested Learning si inserisce in un momento cruciale per la ricerca in continual learning. Con i LLM che raggiungono dimensioni sempre più impegnative in termini computazionali – con centinaia di miliardi di parametri diventati standard per i modelli di punta – la capacità di adattare questi sistemi a nuovi domini senza perdere capacità generali diventa un requisito economico oltre che tecnico. Il retraining completo di modelli su questa scala comporta costi energetici e finanziari proibitivi, rendendo il continual learning efficiente non solo un obiettivo scientifico ma anche una necessità pratica per la sostenibilità dell'AI su larga scala.

Google Research sottolinea come l'approccio Nested Learning generalizzi sia gli ottimizzatori che gli elementi architetturali chiave, offrendo un framework teorico unificato che potrebbe guidare future innovazioni nella progettazione di neural network. Piuttosto che considerare l'architettura come un container statico per l'ottimizzazione, questo paradigma suggerisce che struttura e processo di apprendimento siano aspetti complementari di un unico sistema dinamico. Tale prospettiva potrebbe influenzare non solo il continual learning ma anche aree come il transfer learning, il few-shot learning e l'adattamento di dominio.

Il team di ricerca invita la comunità di machine learning più ampia a esplorare ulteriormente questo approccio, suggerendo che i principi di Nested Learning possano essere applicati a diverse architetture e paradigmi di apprendimento. Rimangono tuttavia domande aperte riguardo alla scalabilità del metodo a modelli con trilioni di parametri, alla sua efficacia in domini non linguistici come la computer vision, e alle implicazioni computazionali dell'introduzione di sistemi di memoria a frequenze multiple. La validazione su benchmark più estesi e in scenari applicativi reali sarà cruciale per determinare se Nested Learning rappresenti effettivamente un cambio di paradigma o una tecnica specializzata per contesti specifici di continual learning.

Google introduce il Nested Learning

> Google Research presenta Nested Learning, un approccio che trasforma le reti neurali in sistemi gerarchici di ottimizzazione per contrastare il catastrophic forgetting