La tecnica è implementata nell'applicazione LM Studio, che permette di scaricare e utilizzare localmente modelli linguistici di grandi dimensioni (LLM). Attraverso un'interfaccia intuitiva, gli utenti possono regolare quanto del modello caricare sulla GPU.
Ad esempio, il modello Gemma 2 27B richiederebbe normalmente 19GB di memoria video per l'esecuzione completa su GPU. Con il GPU offloading, può beneficiare dell'accelerazione anche su schede grafiche con meno memoria.
Vantaggi e prestazioni
Il GPU offloading offre diversi vantaggi: - Permette di utilizzare localmente modelli AI altrimenti troppo grandi - Mantiene private le conversazioni e i contenuti sul dispositivo - Consente l'uso dell'AI senza connessione internet - Sfrutta la potenza delle GPU RTX anche per modelli più complessiI test effettuati mostrano significativi aumenti di prestazioni all'aumentare della percentuale di modello caricata sulla GPU. Ad esempio, con Gemma 2 27B si passa da 2,1 token al secondo usando solo la CPU a velocità molto più elevate sfruttando la GPU.
Questa tecnologia rende accessibili modelli più complessi e potenti su tutta la gamma di PC dotati di GPU GeForce RTX e NVIDIA RTX, consentendo agli utenti di bilanciare dimensioni del modello, qualità delle risposte e prestazioni in base alle proprie esigenze.
NVIDIA invita gli utenti a provare il GPU offloading scaricando l'applicazione LM Studio, per sperimentare con vari modelli LLM accelerati da RTX direttamente sui propri PC e workstation.