LLM su dispositivi edge: la svolta del low-bit

La Microsoft Research ha sviluppato nuove tecnologie per eseguire efficientemente modelli linguistici di grandi dimensioni (LLM) su dispositivi edge come smartphone e robot, superando i limiti di memoria e potenza di calcolo. Questi avanzamenti permettono di utilizzare LLM avanzati su hardware con risorse limitate, aprendo nuove possibilità per l'intelligenza artificiale incorporata e l'interazione in tempo reale.

Le principali innovazioni presentate sono: 1. Ladder: un compilatore che converte formati di dati personalizzati in tipi supportati dall'hardware, senza perdita di informazioni. 2. T-MAC: una libreria che implementa moltiplicazioni di matrici a precisione mista (mpGEMM) utilizzando tabelle di lookup, eliminando le moltiplicazioni. 3. LUT Tensor Core: un'architettura hardware ottimizzata per calcoli a bassa precisione e mista.

Il compilatore Ladder

Ladder colma il divario tra i nuovi formati di dati personalizzati e i tipi di precisione supportati dall'hardware attuale. Converte in modo flessibile tra formati specifici degli algoritmi e formati supportati, senza perdita di dati.

Nei test su GPU NVIDIA e AMD, Ladder ha superato le prestazioni dei compilatori DNN esistenti, raggiungendo accelerazioni fino a 14,6 volte per tipi di dati non supportati nativamente.

La libreria T-MAC

T-MAC implementa moltiplicazioni di matrici a precisione mista utilizzando tabelle di lookup invece delle tradizionali moltiplicazioni. Questo approccio elimina la necessità di dequantizzazione e riduce significativamente i costi computazionali.

Nelle valutazioni su dispositivi edge, T-MAC ha ottenuto prestazioni notevoli: - 48 token al secondo per il modello BitNet-b1.58 da 3 miliardi di parametri - 30 token/s per Llama 7B a 2 bit - 20 token/s per Llama 7B a 4 bit

Questi risultati superano di 4-5 volte le prestazioni di llama.cpp e raddoppiano la velocità di acceleratori NPU dedicati.

T-MAC permette di eseguire LLM efficientemente su CPU standard, senza bisogno di GPU o NPU.

L'architettura LUT Tensor Core

LUT Tensor Core è un'architettura hardware ottimizzata per calcoli a bassa precisione e mista, progettata per superare i limiti delle CPU e GPU esistenti nell'esecuzione di mpGEMM.

I test su LLM a bassa precisione hanno mostrato: - Velocità di inferenza 6,93 volte superiore - Utilizzo di solo il 38,3% dell'area di un Tensor Core tradizionale - Aumento di 20,9 volte della densità computazionale - Miglioramento di 11,2 volte dell'efficienza energetica

Impatto e prospettive future

Queste innovazioni permettono di eseguire efficientemente LLM su dispositivi edge con risorse limitate, aprendo nuove possibilità per l'IA incorporata e l'interazione in tempo reale.

La quantizzazione a bassa precisione consente inoltre di scalare i modelli riducendo i bit per parametro, migliorando capacità, generalità ed espressività.

Microsoft Research ha reso open source T-MAC e Ladder, invitando ricercatori e sviluppatori a testare e esplorare queste nuove tecnologie per l'IA su dispositivi edge.

L'approccio basato su tabelle di lookup potrebbe guidare un cambio di paradigma nell'inferenza di modelli IA, offrendo maggiore densità, throughput ed efficienza energetica rispetto ai metodi tradizionali basati su moltiplicazione e accumulo.