Nel panorama dell'intelligenza artificiale agentiva, dove i sistemi non si limitano più a rispondere a domande ma eseguono operazioni complesse su software reali, Anthropic compie un passo significativo con l'acquisizione di Vercept, startup specializzata nella percezione visiva e nell'interazione dei sistemi AI con le interfacce grafiche. La mossa strategica consolida la posizione dell'azienda fondata da Dario Amodei nel segmento del cosiddetto "computer use", ovvero la capacità di un modello linguistico di operare all'interno di applicazioni live esattamente come farebbe un operatore umano davanti a una tastiera. Si tratta di una frontiera tecnologica particolarmente complessa, che va ben oltre la generazione di testo o codice, richiedendo capacità di percezione visiva, pianificazione multi-step e interazione contestuale con ambienti dinamici.
Il valore dell'acquisizione risiede prima di tutto nel capitale umano: il team di Vercept include i co-fondatori Kiana Ehsani, Luca Weihs e Ross Girshick, ricercatori con un background solido nella computer vision e nell'AI embodied. La loro tesi di partenza era chiara: rendere l'intelligenza artificiale realmente utile per compiti complessi richiede di risolvere problemi non banali di percezione e interazione, non soltanto di ragionamento linguistico. Questa visione si allinea direttamente con le sfide su cui Anthropic sta lavorando per espandere le capacità agentive di Claude. Vercept chiuderà il proprio prodotto esterno nelle prossime settimane per integrare interamente il team nell'organizzazione.
I numeri raccontano la traiettoria impressionante di questo dominio tecnologico. Sul benchmark OSWorld, uno degli strumenti di valutazione più utilizzati per misurare le capacità di computer use nei sistemi AI, i modelli Sonnet di Anthropic sono passati da un tasso di completamento inferiore al 15% nella seconda metà del 2024 — quando la funzionalità venne introdotta per la prima volta — fino al 72,5% con il recente lancio di Claude Sonnet 4.6. Questo balzo prestazionale in meno di un anno testimonia l'accelerazione dello sviluppo in questo segmento, con il modello che si avvicina a soglie di performance paragonabili a quelle umane su task specifici come la navigazione di fogli di calcolo articolati e la compilazione di moduli web distribuiti su più schede del browser.
Dal punto di vista applicativo, le implicazioni per sviluppatori e aziende sono concrete. Gli utenti già impiegano Claude per operazioni su interi repository di codice, sintesi di ricerche da decine di fonti eterogenee e gestione di workflow che coinvolgono più strumenti e team distribuiti. La capacità di computer use aggiunge un livello ulteriore: Claude può ora eseguire task multi-step all'interno di applicazioni reali, risolvendo problemi che il solo codice non potrebbe affrontare, come interazioni con GUI non-programmatiche, sistemi legacy o piattaforme web che non espongono API accessibili.
La convergenza tra capacità linguistiche avanzate e percezione visivo-interattiva rappresenta uno dei vettori più promettenti verso sistemi AI in grado di automatizzare flussi di lavoro d'ufficio realmente complessi, un obiettivo che sino a pochi anni fa sembrava appannaggio della robotica, non dei large language model. Sul piano etico e di sicurezza, tuttavia, sistemi capaci di agire autonomamente su computer reali pongono interrogativi rilevanti: chi è responsabile degli errori commessi in ambienti produttivi? Come si audita il comportamento di un agente che opera su più applicazioni simultaneamente? Questi aspetti sono centrali nel quadro normativo dell'AI Act europeo, che classifica i sistemi ad alto livello di autonomia come potenzialmente ad alto rischio.
L'acquisizione di Vercept segue quella di Bun e conferma un pattern preciso nella strategia di Anthropic: ricercare team con ambizioni tecniche allineate, con un contributo diretto alle capacità dei modelli e con un approccio allo sviluppo fondato su principi di sicurezza e rigore metodologico. Non si tratta di acquisizioni difensive, ma di integrazioni funzionali a una roadmap tecnica specifica. Parallelamente, Anthropic ha annunciato Claude Code Security, una nuova funzionalità integrata in Claude Code per il web, attualmente disponibile in anteprima limitata per la ricerca: il sistema scansiona codebase alla ricerca di vulnerabilità e suggerisce patch mirate per la revisione umana, intercettando categorie di problemi che i metodi tradizionali di analisi statica spesso non rilevano.
Con la fase agentiva dell'AI che entra in una nuova maturità, la domanda aperta riguarda la velocità con cui questi sistemi riusciranno a generalizzare le proprie capacità da task controllati in laboratorio a ambienti operativi reali, imprevedibili e ad alta variabilità. Il gap tra un benchmark come OSWorld e un ambiente aziendale autentico rimane significativo, e proprio qui l'expertise di team come quello di Vercept — capaci di ragionare sui limiti percettivi e interattivi dell'AI in contesti dinamici — potrebbe fare la differenza nei prossimi mesi di sviluppo.