Nuovo sistema riduce consumi AI del 50%

L'analisi di grandi reti di dati rappresenta oggi una delle sfide più complesse nell'ambito dell'intelligenza artificiale, specialmente quando si tratta di elaborare informazioni in tempo reale per applicazioni critiche come la guida autonoma o i sistemi di raccomandazione. Un team di ricercatori dell'Institute of Science Tokyo ha sviluppato una soluzione rivoluzionaria chiamata BingoCGN, un acceleratore per reti neurali grafiche che promette di trasformare radicalmente l'efficienza computazionale in questo settore. Il framework rappresenta un salto qualitativo nell'elaborazione di grafi su larga scala, combinando tecniche innovative di quantizzazione dei messaggi e algoritmi di addestramento ottimizzati.

La sfida dell'elaborazione dei grafi complessi

Le reti neurali grafiche (GNN) operano su strutture dati dove le entità sono rappresentate come nodi interconnessi da collegamenti che definiscono le relazioni reciproche. Questa architettura si rivela particolarmente efficace nell'analisi di social network, nella scoperta di farmaci e nei sistemi di raccomandazione, ma presenta limitazioni significative quando si scala verso applicazioni di grandi dimensioni.

Il problema principale risiede nella gestione della memoria: i grafi estesi richiedono quantità enormi di memoria che spesso superano le capacità dei buffer integrati nei chip. Questo costringe i sistemi a ricorrere alla memoria esterna, più lenta e meno efficiente, creando pattern di accesso irregolari che degradano le prestazioni computazionali e aumentano drasticamente il consumo energetico.

L'approccio innovativo della quantizzazione cross-partition

La tecnica della quantizzazione dei messaggi cross-partition (CMQ) sviluppata dal team guidato dal professor associato Daichi Fujiki rappresenta il cuore dell'innovazione di BingoCGN. Il sistema utilizza la quantizzazione vettoriale per raggruppare i nodi inter-partizione e rappresentarli attraverso punti chiamati centroidi, eliminando la necessità di accessi irregolari alla memoria esterna.

I centroidi vengono organizzati in strutture chiamate codebook, memorizzate direttamente nei buffer integrati del chip. Questa architettura gerarchica ad albero, con centroidi padre e figlio, riduce significativamente le richieste computazionali mantenendo un'accuratezza comparabile al sistema originale.

Il sistema raggiunge accelerazioni fino a 65 volte superiori rispetto agli acceleratori tradizionali

L'algoritmo di addestramento basato sulla teoria della lotteria forte

Mentre la CMQ risolve il collo di bottiglia della memoria, sposta inevitabilmente il carico computazionale. Per contrastare questo effetto, i ricercatori hanno implementato un algoritmo di addestramento innovativo basato sulla strong lottery ticket theory, che inizializza la GNN con pesi casuali generati direttamente on-chip utilizzando generatori di numeri casuali.

Il processo prevede la potatura dei pesi non necessari attraverso maschere specifiche, creando una sotto-rete più piccola e meno densa che mantiene un'accuratezza comparabile alla GNN completa ma risulta significativamente più efficiente dal punto di vista computazionale. La potatura strutturata fine-grained utilizza maschere multiple con diversi livelli di sparsità per costruire sotto-reti ancora più ottimizzate.

Risultati sperimentali e impatto futuro

I test condotti su sette dataset del mondo reale hanno dimostrato che BingoCGN raggiunge accelerazioni fino a 65 volte superiori e un aumento dell'efficienza energetica fino a 107 volte rispetto a FlowGNN, considerato lo stato dell'arte nel settore degli acceleratori GNN. Questi risultati aprono nuove prospettive per l'elaborazione in tempo reale di dati grafici su larga scala.

"Attraverso queste tecniche, BingoCGN rende possibile un'inferenza GNN ad alte prestazioni anche su dati grafici finemente partizionati, che in precedenza era considerata difficile da realizzare", sottolinea Fujiki. L'approccio del partizionamento dei grafi, dove strutture complesse vengono suddivise in componenti più piccole con buffer dedicati, diventa finalmente scalabile grazie all'eliminazione degli accessi irregolari alla memoria.

La ricerca, che sarà presentata al 52° Simposio Internazionale Annuale sull'Architettura dei Computer nel giugno 2025, rappresenta un passo fondamentale verso l'implementazione pratica di sistemi di intelligenza artificiale capaci di elaborare reti complesse in applicazioni real-world. Le implicazioni spaziano dalla guida autonoma ai sistemi di raccomandazione avanzati, aprendo scenari inediti per l'analisi di big data strutturati in forma di grafo.