Simulano un'azienda fatta con l'AI, il risultato è un disastro

Nel dibattito sul futuro dell'automazione e dell'intelligenza artificiale nei luoghi di lavoro, una recente ricerca della Carnegie Mellon University getta una luce di realismo sulle reali capacità degli agenti AI. Lo studio, intitolato "Your next assignment at work: babysitting AI", rivela un quadro decisamente meno allarmante rispetto alle previsioni apocalittiche sulla sostituzione di massa dei lavoratori umani. La simulazione di un'azienda virtuale interamente gestita da intelligenze artificiali ha dimostrato che, nonostante i progressi tecnologici, siamo ancora lontani dall'avere robot capaci di sostituirci efficacemente nelle nostre mansioni quotidiane.

L'esperimento che ridimensiona i timori sulla sostituzione umana

I ricercatori della Carnegie Mellon hanno creato "TheAgentCompany", un ambiente aziendale simulato in cui diversi modelli di intelligenza artificiale - tra cui quelli di Meta, OpenAI, Google e Anthropic - dovevano collaborare per portare a termine compiti professionali tipici. Dalla programmazione alla gestione delle risorse umane, passando per l'analisi dati, gli agenti AI sono stati messi alla prova in situazioni che qualsiasi dipendente affronta quotidianamente.

Il verdetto è chiaro e, per molti, sorprendentemente deludente: anche il modello più performante, Claude 3.5 Sonnet di Anthropic, è riuscito a completare meno del 25% dei compiti assegnati. L'efficienza operativa degli agenti AI è risultata drasticamente inferiore rispetto a quella di un normale lavoratore umano, con modelli come Gemini 2.0 Flash di Google e quello alla base di ChatGPT che hanno raggiunto appena il 10% di completamento delle attività.

Le lacune degli assistenti digitali nel contesto lavorativo

Ciò che è emerso con maggiore evidenza sono le difficoltà degli agenti AI nell'interpretare correttamente il contesto. Quando si sono trovati di fronte a pop-up informativi o istruzioni ambigue, i sistemi hanno mostrato limiti sostanziali. Ancora più problematica è risultata l'interazione tra i vari agenti, con frequenti fraintendimenti e una tendenza a segnare come completati compiti che in realtà non erano stati portati a termine.

L'intelligenza artificiale che dovrebbe sostituire il lavoro umano non riesce nemmeno a comprendere cosa le viene chiesto di fare.

Graham Neubig, professore di informatica alla CMU e tra gli autori dello studio, ha evidenziato come non esista una singola categoria in cui gli agenti di intelligenza artificiale siano riusciti a completare la maggioranza dei compiti assegnati. Un dato che contrasta nettamente con la narrativa dominante sul presunto imminente sorpasso tecnologico nei luoghi di lavoro.

La realtà dietro il mito dell'AI agentica

Stephen Casper, ricercatore al MIT, aveva già sottolineato come le capacità degli agenti AI fossero oggi "assurdamente sopravvalutate" rispetto alle loro effettive potenzialità. Lo studio della Carnegie Mellon conferma questa visione, dimostrando che la strada verso un'automazione efficace di mansioni complesse è ancora lunga e impervia.

Il problema fondamentale risiede nella difficoltà di addestrare queste intelligenze artificiali a operare in contesti reali e multidimensionali. Le big tech probabilmente concentreranno i loro sforzi futuri sul training contestuale degli agenti, cercando di migliorarne le capacità attraverso simulazioni sempre più accurate di situazioni lavorative specifiche.

Tuttavia, la capacità di interpretare le innumerevoli sfumature di un ambiente professionale, con tutte le sue variabili sociali, comunicative e decisionali, rimane una sfida estremamente complessa. L'intelligenza umana, con la sua flessibilità e adattabilità innata, continua a mantenere un vantaggio considerevole rispetto alle sue controparti artificiali quando si tratta di navigare la complessità del mondo reale.

Un futuro di collaborazione più che di sostituzione

I risultati dell'esperimento suggeriscono che, almeno nel medio termine, il futuro del lavoro sarà caratterizzato più da una integrazione collaborativa tra umani e intelligenze artificiali che da una sostituzione massiccia. Gli agenti AI potranno certamente automatizzare specifiche attività ripetitive e ben definite, ma avranno bisogno della supervisione umana per gestire situazioni complesse, ambigue o non previste.

Più che temere di essere sostituiti, forse dovremmo prepararci a una nuova sfida professionale: quella di supervisionare e correggere gli errori dei nostri "colleghi digitali", almeno finché questi non diventeranno significativamente più affidabili. In questa prospettiva, la ricerca della Carnegie Mellon offre un contributo prezioso alla discussione sul futuro del lavoro, riportandola su un binario di realismo tecnologico lontano sia dall'eccessivo allarmismo che dall'ottimismo ingiustificato.