Alibaba domina il trading crypto con la sua AI

L'ecosistema dell'intelligenza artificiale assiste a un nuovo capitolo nella competizione globale tra modelli linguistici di grandi dimensioni: questa volta il campo di battaglia non è costituito da benchmark accademici o test di ragionamento, ma dai mercati finanziari reali. L'esperimento Alpha Arena, condotto dal gruppo Nof1, ha messo sei Large Language Models a confronto in un contesto di trading autonomo su criptovalute, generando risultati che sollevano interrogativi profondi sulle reali capacità operative degli LLM al di fuori dei loro domini di addestramento tradizionali. Il modello cinese Qwen3-Max di Alibaba ha registrato un rendimento del 22,32% in due settimane su un capitale iniziale di 10.000 dollari, mentre paradossalmente i modelli americani hanno subito perdite significative, con GPT-5 di OpenAI che ha bruciato il 62,66% del portafoglio.

La sfida tecnica sottostante rivela uno dei punti più critici nell'applicazione pratica dei transformer: la capacità di ragionamento quantitativo puro rimane una debolezza strutturale per architetture progettate principalmente per elaborazione linguistica. I modelli come GPT, Claude e Gemini eccellono in generazione testuale, comprensione semantica e problem-solving basato su linguaggio naturale, ma quando vengono spogliati del contesto narrativo e confrontati esclusivamente con serie temporali di prezzi, volumi e indicatori tecnici, emergono lacune significative. La letteratura scientifica su arXiv ha già documentato come i Large Language Models fatichino con algebra complessa, ottimizzazione numerica dinamica e decisioni sequenziali in ambienti puramente quantitativi.

L'architettura dell'esperimento presenta tuttavia limitazioni metodologiche che gli stessi organizzatori di Nof1 hanno riconosciuto pubblicamente. I modelli hanno operato esclusivamente su dati quantitativi senza accesso a flussi informativi qualitativi: nessuna analisi di sentiment da social media, nessun parsing di comunicati normativi, nessuna interpretazione di eventi macroeconomici. Questo ambiente artificialmente ristretto trasforma l'esperimento in quello che potremmo definire un "laboratorio sterile", privo delle dimensioni di complessità informativa che caratterizzano il trading reale. La finestra temporale di sole due settimane su asset altamente volatili come le criptovalute amplifica esponenzialmente il fattore casualità, rendendo statisticamente azzardato distinguere tra capacità predittiva genuina e semplice fortuna temporale.

L'unico altro modello in positivo è stato DeepSeek V3.1 con un modesto 4,89%, mentre tutti i sistemi americani hanno registrato performance negative, sollevando interrogativi sulla specializzazione necessaria per domini finanziari ad alta frequenza

Dal punto di vista dell'ingegneria dei sistemi AI, il successo di Qwen3-Max potrebbe indicare strategie di fine-tuning specifiche per contesti numerici e decisionali, oppure semplicemente una configurazione di parametri di temperature e sampling più conservativa. Alcuni report mostrano divergenze significative tra versioni dell'esperimento: in un aggiornamento al 30 ottobre, Qwen3-Max avrebbe raggiunto circa il 25% di rendimento mantenendo un numero moderato di operazioni e una gestione del rischio equilibrata, evitando esposizioni aggressive. Altre fonti citano performance straordinarie superiori al 100% in contesti live per DeepSeek e Qwen, ma questi dati rimangono controversi e non verificati in modo indipendente.

La questione fondamentale che questo esperimento solleva riguarda la distinzione tra intelligenza linguistica e intelligenza operativa nei sistemi di machine learning. I modelli transformer sono stati addestrati su corpus testuali massicci per ottimizzare la verosimiglianza linguistica, non per massimizzare funzioni di utilità finanziaria in ambienti stocastici. Quando li utilizziamo come agenti autonomi in domini specializzati senza customizzazione profonda, le loro debolezze emergono rapidamente. Il reinforcement learning specifico per trading, combinato con architetture ibride che integrano reti neurali specializzate per serie temporali, rappresenterebbe probabilmente un approccio più robusto rispetto all'applicazione diretta di LLM generalisti.

Dal punto di vista della ricerca accademica, l'esperimento Alpha Arena si colloca in un filone crescente di studi sull'applicazione di modelli linguistici a compiti non linguistici. La comunità scientifica ha già evidenziato come i transformer, nonostante le loro capacità impressionanti in Natural Language Processing, mostrino limitazioni sistematiche in ragionamento matematico formale, pianificazione multimodale e ottimizzazione sotto incertezza. Le conferenze NeurIPS e ICML degli ultimi due anni hanno presentato numerosi paper che documentano questi pattern di debolezza, suggerendo che l'architettura transformer da sola potrebbe non essere sufficiente per intelligenza artificiale generale in domini altamente specializzati.

L'impatto mediatico dell'esperimento è innegabile e rappresenta un colpo strategico per Alibaba nella narrazione della competizione tecnologica sino-americana. Tuttavia, la comunità degli sviluppatori e dei ricercatori AI deve resistere alla tentazione di interpretare questi risultati come prova definitiva di superiorità modellistica. Il rigore scientifico richiede replicazione indipendente, estensione dei periodi di test, introduzione di condizioni realistiche che includano shock esogeni, notizie improvvise e cambiamenti normativi. Solo attraverso protocolli sperimentali più robusti, con significatività statistica verificata e controlli per overfitting temporale, potremo valutare se questi risultati rappresentano capacità generalizzabili o artefatti di configurazioni fortunate.

Il futuro di questa linea di ricerca probabilmente vedrà l'evoluzione verso sistemi ibridi che combinano LLM per l'interpretazione di informazioni qualitative con moduli specializzati per elaborazione quantitativa e gestione del rischio. L'integrazione di tecniche di Retrieval-Augmented Generation per accedere dinamicamente a dati finanziari aggiornati, unita a strati di reinforcement learning specifici per decisioni sequenziali in ambienti incerti, potrebbe rappresentare la prossima frontiera. La domanda aperta rimane: quanto dell'intelligenza finanziaria richiesta per trading profittevole può essere appresa attraverso pre-training linguistico, e quanto invece richiede architetture e paradigmi di addestramento radicalmente diversi?

Alibaba domina il trading crypto con la sua AI

> Qwen3-Max genera un rendimento del 22,32% in due settimane nel test Alpha Arena di Nof1, superando DeepSeek, OpenAI, Google DeepMind, xAI e Anthropic