Accelerare LLM su RTX: la soluzione di LM Studio

L'azienda NVIDIA ha presentato una nuova tecnica chiamata "GPU offloading" che permette di eseguire localmente su PC con schede grafiche RTX modelli di intelligenza artificiale di grandi dimensioni, normalmente destinati ai data center. Questa innovazione consente agli utenti di sfruttare l'accelerazione GPU anche per modelli AI che superano la capacità di memoria video delle schede grafiche consumer. Il GPU offloading divide il modello in parti più piccole, caricandole e scaricandole dalla GPU secondo necessità.

La tecnica è implementata nell'applicazione LM Studio, che permette di scaricare e utilizzare localmente modelli linguistici di grandi dimensioni (LLM). Attraverso un'interfaccia intuitiva, gli utenti possono regolare quanto del modello caricare sulla GPU.

Ad esempio, il modello Gemma 2 27B richiederebbe normalmente 19GB di memoria video per l'esecuzione completa su GPU. Con il GPU offloading, può beneficiare dell'accelerazione anche su schede grafiche con meno memoria.

Vantaggi e prestazioni

Il GPU offloading offre diversi vantaggi: - Permette di utilizzare localmente modelli AI altrimenti troppo grandi - Mantiene private le conversazioni e i contenuti sul dispositivo - Consente l'uso dell'AI senza connessione internet - Sfrutta la potenza delle GPU RTX anche per modelli più complessi

I test effettuati mostrano significativi aumenti di prestazioni all'aumentare della percentuale di modello caricata sulla GPU. Ad esempio, con Gemma 2 27B si passa da 2,1 token al secondo usando solo la CPU a velocità molto più elevate sfruttando la GPU.

Il GPU offloading sblocca il pieno potenziale dei grandi modelli AI su PC con RTX.

Questa tecnologia rende accessibili modelli più complessi e potenti su tutta la gamma di PC dotati di GPU GeForce RTX e NVIDIA RTX, consentendo agli utenti di bilanciare dimensioni del modello, qualità delle risposte e prestazioni in base alle proprie esigenze.

NVIDIA invita gli utenti a provare il GPU offloading scaricando l'applicazione LM Studio, per sperimentare con vari modelli LLM accelerati da RTX direttamente sui propri PC e workstation.

Accelerare LLM su RTX: la soluzione di LM Studio

> Modelli AI giganti ora alla portata di tutti: l'offloading GPU li rende eseguibili su PC e workstation RTX locali.

Vantaggi e prestazioni