DeepSeek alla prova: sfida agli altri tool AI

Il nuovo modello linguistico DeepSeek, sviluppato in Cina, sta scuotendo il mercato dominato dagli Stati Uniti, offrendo un chatbot ad alte prestazioni a costi significativamente inferiori. Questa innovazione ha causato una perdita di valore di mercato di 600 miliardi di dollari per Nvidia, produttore americano di chip utilizzati per l'addestramento della maggior parte dei modelli linguistici di grandi dimensioni (LLM).

L'impatto di DeepSeek sul settore dell'intelligenza artificiale è notevole. Mentre lo sviluppo di ChatGPT da parte di OpenAI ha richiesto investimenti tra i 100 milioni e 1 miliardo di dollari, DeepSeek è riuscita a completare l'addestramento del suo modello in soli due mesi, spendendo 5,6 milioni di dollari. Questo risultato è stato possibile grazie all'utilizzo di chip Nvidia H800 più economici e a una serie di innovazioni intelligenti.

Prestazioni a confronto

DeepSeek afferma che le prestazioni del suo chatbot R1 sono paragonabili, se non superiori in alcuni test, a quelle dei prodotti OpenAI. Tuttavia, i benchmark tradizionali basati su test di comprensione linguistica multitasking (MMLU) non sono sempre indicativi delle prestazioni reali.

Un gruppo di ricercatori delle università di Cardiff Metropolitan, Bristol e Cardiff, noto come Knowledge Observation Group (KOG), ha sviluppato una metodologia alternativa per valutare oggettivamente gli LLM. Questi test sondano la capacità dei modelli di imitare il linguaggio e la conoscenza umana attraverso domande che richiedono una comprensione implicita.

DeepSeek ha ottenuto un punteggio di 5,5 su 6, superando il modello o1 di OpenAI.

Nei test KOG, DeepSeek ha ottenuto un punteggio di 5,5 su 6, superando il modello o1 di OpenAI e la versione gratuita di ChatGPT-4. È stato leggermente superato solo da ClaudeAI di Anthropic e o1 mini di OpenAI, entrambi con un punteggio perfetto di 6/6. Questi risultati dimostrano quanto sia già competitivo il chatbot di DeepSeek, battendo i modelli di punta di OpenAI.

La sfida della censura

Nonostante le sue prestazioni impressionanti, DeepSeek deve affrontare una sfida significativa: la censura. Il chatbot risponde a domande su argomenti politicamente sensibili in Cina con un messaggio generico: "Mi dispiace, questo va oltre il mio ambito attuale". Questa limitazione solleva preoccupazioni sulla libertà di informazione e sull'influenza politica sugli LLM.

Tuttavia, il problema non è esclusivo di DeepSeek. L'annuncio del progetto Stargate LLM da 500 miliardi di dollari di Donald Trump, che coinvolge giganti tech come OpenAI, Nvidia, Oracle, Microsoft e Arm, solleva analoghe preoccupazioni sull'influenza politica. Inoltre, la recente decisione di Meta di abbandonare il fact-checking su Facebook e Instagram suggerisce una tendenza crescente verso il populismo a discapito della veridicità delle informazioni.

Impatto sul mercato e prospettive future

L'arrivo di DeepSeek ha causato una seria disruption nel mercato degli LLM. Le aziende statunitensi come OpenAI e Anthropic saranno costrette a innovare i loro prodotti per mantenere la rilevanza e competere in termini di prestazioni e costi.

Il successo di DeepSeek dimostra che è possibile sviluppare modelli LLM ad alte prestazioni senza budget miliardari. Allo stesso tempo, evidenzia i rischi legati alla censura degli LLM, alla diffusione di disinformazione e l'importanza di valutazioni indipendenti.

Con l'integrazione sempre più profonda degli LLM nella politica e nel business globale, trasparenza e responsabilità saranno essenziali per garantire un futuro sicuro, utile e affidabile per queste tecnologie.