Anthropic ha annunciato oggi il lancio di Claude 3.7 Sonnet, definito come il loro modello di intelligenza artificiale più avanzato finora. Questa nuova versione introduce capacità di ragionamento ibrido, permettendo risposte rapide o riflessioni estese e visibili all'utente. Insieme al modello, l'azienda ha presentato anche Claude Code, uno strumento a riga di comando per la codifica automatizzata.
Claude 3.7 Sonnet rappresenta un significativo passo avanti nell'ambito dell'intelligenza artificiale, in particolare per quanto riguarda le capacità di programmazione e sviluppo web. Il modello è ora disponibile su tutti i piani Claude, inclusi quelli gratuiti e a pagamento, nonché attraverso le piattaforme cloud di Amazon e Google. L'azienda ha mantenuto invariati i prezzi rispetto alle versioni precedenti.
Un approccio unificato al ragionamento
Anthropic ha sviluppato Claude 3.7 Sonnet con una filosofia diversa rispetto ad altri modelli di ragionamento sul mercato. L'obiettivo è integrare le capacità di ragionamento rapido e riflessione profonda in un unico sistema, analogamente a come funziona il cervello umano.
Questo approccio unificato si manifesta in diversi modi:
- Il modello può funzionare sia come un normale LLM che come un sistema di ragionamento avanzato, permettendo all'utente di scegliere la modalità più adatta
- Gli utenti API possono controllare il "budget di pensiero" del modello, bilanciando velocità e qualità delle risposte
- Lo sviluppo si è concentrato su compiti del mondo reale piuttosto che su problemi astratti di matematica e informatica
Prestazioni all'avanguardia nel coding
I test iniziali hanno dimostrato le eccezionali capacità di Claude 3.7 Sonnet nell'ambito della programmazione. Diverse aziende del settore hanno evidenziato miglioramenti significativi in aree come:
- Gestione di codebases complesse
- Utilizzo avanzato di strumenti di sviluppo
- Pianificazione di modifiche al codice
- Aggiornamenti full-stack
- Creazione di app web e dashboard sofisticate
Il modello ha ottenuto risultati allo stato dell'arte in benchmark come SWE-bench Verified e TAU-bench, che valutano la capacità di risolvere problemi software del mondo reale.
Claude Code: un assistente per gli sviluppatori
Anthropic ha inoltre introdotto Claude Code, uno strumento di codifica automatizzata attualmente in anteprima limitata. Claude Code può eseguire attivamente compiti come:
- Cercare e leggere codice
- Modificare file
- Scrivere ed eseguire test
- Effettuare commit e push su GitHub
- Utilizzare strumenti da riga di comando
Nei test iniziali, Claude Code ha dimostrato di poter completare in un solo passaggio attività che normalmente richiederebbero oltre 45 minuti di lavoro manuale.
Miglioramenti nell'esperienza di sviluppo
Anthropic ha anche migliorato l'esperienza di codifica su Claude.ai, rendendo l'integrazione con GitHub disponibile su tutti i piani. Ciò permette agli sviluppatori di connettere direttamente i loro repository a Claude, facilitando attività come la correzione di bug e lo sviluppo di nuove funzionalità.
Sviluppo responsabile e sicurezza
L'azienda sottolinea di aver condotto test approfonditi per garantire che Claude 3.7 Sonnet soddisfi elevati standard di sicurezza, affidabilità e responsabilità. Il modello mostra una maggiore capacità di distinguere tra richieste dannose e benigne, riducendo del 45% i rifiuti non necessari rispetto al predecessore.
Anthropic ha pubblicato una dettagliata scheda tecnica che copre i risultati dei test di sicurezza e le valutazioni secondo la loro Responsible Scaling Policy. La scheda affronta anche i rischi emergenti legati all'uso del computer, in particolare gli attacchi di prompt injection.
Prospettive future
Claude 3.7 Sonnet e Claude Code rappresentano un importante passo avanti verso sistemi di intelligenza artificiale in grado di potenziare realmente le capacità umane. Con la loro capacità di ragionare in profondità, lavorare in autonomia e collaborare efficacemente, questi strumenti aprono nuove possibilità nel campo dell'intelligenza artificiale applicata.
Anthropic invita gli utenti a esplorare queste nuove funzionalità e a fornire feedback per guidare i futuri miglioramenti dei loro modelli.