Le principali innovazioni presentate sono: 1. Ladder: un compilatore che converte formati di dati personalizzati in tipi supportati dall'hardware, senza perdita di informazioni. 2. T-MAC: una libreria che implementa moltiplicazioni di matrici a precisione mista (mpGEMM) utilizzando tabelle di lookup, eliminando le moltiplicazioni. 3. LUT Tensor Core: un'architettura hardware ottimizzata per calcoli a bassa precisione e mista.
Il compilatore Ladder
Ladder colma il divario tra i nuovi formati di dati personalizzati e i tipi di precisione supportati dall'hardware attuale. Converte in modo flessibile tra formati specifici degli algoritmi e formati supportati, senza perdita di dati.Nei test su GPU NVIDIA e AMD, Ladder ha superato le prestazioni dei compilatori DNN esistenti, raggiungendo accelerazioni fino a 14,6 volte per tipi di dati non supportati nativamente.
La libreria T-MAC
T-MAC implementa moltiplicazioni di matrici a precisione mista utilizzando tabelle di lookup invece delle tradizionali moltiplicazioni. Questo approccio elimina la necessità di dequantizzazione e riduce significativamente i costi computazionali.Nelle valutazioni su dispositivi edge, T-MAC ha ottenuto prestazioni notevoli: - 48 token al secondo per il modello BitNet-b1.58 da 3 miliardi di parametri - 30 token/s per Llama 7B a 2 bit - 20 token/s per Llama 7B a 4 bit
Questi risultati superano di 4-5 volte le prestazioni di llama.cpp e raddoppiano la velocità di acceleratori NPU dedicati.L'architettura LUT Tensor Core
LUT Tensor Core è un'architettura hardware ottimizzata per calcoli a bassa precisione e mista, progettata per superare i limiti delle CPU e GPU esistenti nell'esecuzione di mpGEMM.I test su LLM a bassa precisione hanno mostrato: - Velocità di inferenza 6,93 volte superiore - Utilizzo di solo il 38,3% dell'area di un Tensor Core tradizionale - Aumento di 20,9 volte della densità computazionale - Miglioramento di 11,2 volte dell'efficienza energetica
Impatto e prospettive future
Queste innovazioni permettono di eseguire efficientemente LLM su dispositivi edge con risorse limitate, aprendo nuove possibilità per l'IA incorporata e l'interazione in tempo reale.La quantizzazione a bassa precisione consente inoltre di scalare i modelli riducendo i bit per parametro, migliorando capacità, generalità ed espressività.
Microsoft Research ha reso open source T-MAC e Ladder, invitando ricercatori e sviluppatori a testare e esplorare queste nuove tecnologie per l'IA su dispositivi edge.
L'approccio basato su tabelle di lookup potrebbe guidare un cambio di paradigma nell'inferenza di modelli IA, offrendo maggiore densità, throughput ed efficienza energetica rispetto ai metodi tradizionali basati su moltiplicazione e accumulo.