OpenAI accende Jalapeño, Gemini slitta e Copilot pesa

La giornata dell’AI racconta una cosa semplice: la competizione non si gioca più soltanto sul modello più brillante, ma su chi riesce a portarlo in produzione senza farsi schiacciare da chip, memoria, energia, token e governance. OpenAI ha mostrato Jalapeño, il suo primo processore per inferenza costruito con Broadcom; Google deve gestire le aspettative su Gemini 3.5 Pro e allo stesso tempo spinge gli sviluppatori a migrare modelli e API; GitHub Copilot, secondo un nuovo report, vive un picco di utilizzo proprio mentre il suo prezzo diventa più vicino al consumo reale.

Per chi usa l’AI ogni giorno, il filo comune è più concreto di quanto sembri. Le aziende non stanno solo pubblicando modelli: stanno decidendo dove farli girare, quanto far pagare il loro uso, quali versioni spegnere, quali strumenti lasciare come default e quali costi spostare verso team, sviluppatori e clienti. Questo cambia anche il modo in cui un professionista deve valutare un assistente AI: non basta chiedersi se risponde bene, bisogna capire quanto costa arrivare a quella risposta, con quale stabilità e con quanta libertà di scelta.

La notizia principale è quindi hardware, ma le conseguenze arrivano fino al browser, all’IDE e alla riunione in cui un manager deve spiegare perché un agente ha consumato crediti in mezz’ora. Jalapeño parla di infrastruttura; Gemini parla di tempi, migrazioni e fiducia degli sviluppatori; Copilot parla della trasformazione dell’AI da abbonamento rassicurante a voce di spesa variabile. È una newsletter sul passaggio dall’entusiasmo alla disciplina operativa.

Jalapeño porta OpenAI dentro la partita dei chip AI

OpenAI e Broadcom hanno presentato Jalapeño, descritto da OpenAI come il suo primo Intelligence Processor: non un chip generico riadattato all’AI, ma un acceleratore pensato per l’inferenza dei grandi modelli linguistici. Il punto tecnico è importante. L’inferenza è la fase in cui un modello già addestrato serve risposte agli utenti: chat, agenti, API, strumenti di coding, funzioni vocali, sintesi, ricerca e automazioni. È lì che il successo commerciale dell’AI incontra il problema più quotidiano: milioni di richieste, latenze basse, costi prevedibili e disponibilità costante.

OpenAI sostiene che Jalapeño sia stato ottimizzato attorno a kernel, movimento della memoria, networking e pattern di serving che contano nei suoi carichi reali. In altre parole: non è solo una mossa di branding contro Nvidia. È il tentativo di trasformare l’esperienza accumulata su ChatGPT, Codex e API in una piattaforma fisica più adatta ai suoi carichi. Se l’azienda sa già quali operazioni sono più frequenti, quali colli di bottiglia consumano più energia e quali parti della pipeline causano latenza, può provare a progettare il silicio intorno a quei dati invece di acquistare soltanto hardware standard.

The world is moving to a compute-powered economy.

La frase di Greg Brockman, breve ma molto chiara, aiuta a capire il significato strategico dell’annuncio. OpenAI sta dicendo che il valore non starà solo nella qualità del modello, ma nella capacità di servire intelligenza come infrastruttura abbondante. È una tesi da “full stack”: modelli, dati, prodotto, runtime, rete, chip e data center devono diventare parte dello stesso disegno. Per un’azienda che brucia risorse enormi nel servire utenti e sviluppatori, anche pochi punti percentuali di efficienza per watt o per dollaro possono cambiare il margine, la velocità di rollout e la possibilità di abbassare i prezzi.

Il dettaglio più interessante è che Jalapeño nasce per l’inferenza, non per il training. Questo ridimensiona le letture troppo aggressive: non significa che OpenAI possa smettere domani di comprare GPU, né che il dominio di Nvidia sia già intaccato nella parte più pesante dell’addestramento frontier. Significa però che il baricentro economico dell’AI si sta spostando. Quando milioni di utenti usano ogni giorno modelli potenti, il costo cumulativo dell’inferenza può diventare una leva enorme. Chi controlla quel livello può decidere meglio quali modelli offrire come default, quali funzioni rendere gratuite, quali agenti far girare in background e quali prezzi sostenere in azienda.

Broadcom ha un ruolo altrettanto centrale. Il suo mestiere è costruire chip personalizzati e connettere sistemi su scala, non soltanto consegnare un singolo componente. L’annuncio parla di una piattaforma multi-generazione e di data center su scala gigawatt con partner come Microsoft. È il linguaggio dell’AI industriale: rack, networking, alimentazione, orchestrazione, affidabilità e roadmap. Quando un laboratorio AI arriva a questa scala, ogni scelta di prodotto diventa anche una scelta di supply chain.

Per gli utenti finali, il vantaggio non sarà immediatamente visibile come una nuova icona dentro ChatGPT. La promessa è indiretta: più capacità disponibile, risposte più stabili, nuove funzioni meno limitate, agenti più persistenti e prezzi meno vulnerabili alle strozzature dell’hardware. La parola chiave è affidabilità. Un assistente AI che funziona bene solo quando la domanda è bassa non è un’infrastruttura; è una demo fragile. OpenAI vuole mostrare che può iniziare a controllare anche il lato fisico della domanda.

Qui si vede anche la differenza tra annunciare un modello e gestire una piattaforma. Un modello può migliorare in pochi mesi, ma una piattaforma deve assorbire picchi di traffico, clienti enterprise, rollout globali, requisiti di privacy, integrazioni con strumenti esterni e aspettative di disponibilità quasi continua. Quando l’AI diventa parte di un processo di vendita, assistenza, sviluppo software o analisi documentale, il costo dell’interruzione non è più soltanto frustrazione: è lavoro bloccato. Per questo l’inferenza è diventata una priorità strategica. È la parte meno teatrale dell’AI, ma è quella che decide se l’esperienza può reggere su larga scala.

Il chip custom non cancella il bisogno di software migliore. Anzi, lo aumenta. Se OpenAI avrà più capacità, dovrà decidere come distribuirla tra utenti gratuiti, piani a pagamento, API, clienti enterprise e prodotti agentici. Una piattaforma più efficiente può rendere possibili limiti più generosi, ma può anche spingere verso funzioni più ambiziose che consumano subito il vantaggio. La domanda vera sarà quindi se Jalapeño abbasserà il costo per la stessa esperienza o abiliterà esperienze nuove che, a loro volta, richiederanno ancora più compute.

ChatGPT cambia tono mentre OpenAI chiude modelli più vecchi

Nel frattempo, la parte prodotto non si ferma. Nelle note di rilascio di ChatGPT, OpenAI ha aggiornato GPT-5.5 Instant con l’obiettivo dichiarato di migliorare qualità conversazionale, naturalezza, ritmo e utilità pratica. Il messaggio è meno spettacolare di un chip, ma forse più vicino all’esperienza quotidiana: risposte più leggibili, meno prolisse, meno meccaniche e più adatte a decisioni, consigli, pianificazione e ricerca di opzioni.

Questa è una direzione importante perché molti utenti non giudicano un modello soltanto dal benchmark. Lo giudicano da quanto è utile quando devono scegliere un fornitore, scrivere un’email difficile, capire un documento, confrontare alternative o trasformare appunti disordinati in un piano. Se GPT-5.5 Instant diventa il modello che assorbe più casi d’uso ordinari, la sua personalità operativa conta quasi quanto la sua capacità grezza. Un modello molto potente ma verboso può far perdere tempo; un modello leggermente meno spettacolare ma più prevedibile può diventare lo strumento che resta aperto tutto il giorno.

Le stesse note indicano anche un lavoro di pulizia del catalogo. OpenAI segnala il ritiro di modelli più vecchi in ChatGPT, come OpenAI o3 e GPT-4.5, con finestre di transizione. È un segnale ricorrente in tutto il settore: i modelli non sono più monumenti permanenti, sono servizi versionati. Chi costruisce workflow sopra un modello deve aspettarsi deprecazioni, sostituzioni, alias che cambiano, limiti diversi e funzioni che migrano da un’interfaccia a un’altra.

La rimozione o riduzione di vecchi percorsi può essere razionale per chi gestisce il prodotto: meno frammentazione, meno costi, più capacità concentrata sui modelli migliori. Ma per team e professionisti significa una cosa concreta: non progettare processi critici intorno a un nome modello senza un piano di fallback. Se un reparto usa un modello perché “scrive meglio in quel tono”, oppure perché una vecchia funzione di canvas si incastra in una routine editoriale, serve una prova di regressione quando arriva un aggiornamento. La qualità dell’AI non va valutata una volta: va monitorata come si monitora un software vivo.

Qui il collegamento con Jalapeño diventa evidente. Se OpenAI migliora l’efficienza dell’inferenza, può permettersi di far diventare default modelli più capaci; se semplifica il catalogo, può ridurre la complessità operativa; se cambia il tono dei modelli più usati, può aumentare la soddisfazione senza lanciare ogni volta una nuova generazione. La competizione non è solo “modello A batte modello B”, ma “quale piattaforma migliora più spesso senza rompere il lavoro degli utenti”.

Per chi scrive, vende, studia o programma con ChatGPT, il punto pratico è osservare gli aggiornamenti piccoli. Un cambiamento di tono può modificare il modo in cui un modello riassume rischi, propone alternative, chiede chiarimenti o conclude una risposta. Un team editoriale può trovarsi con testi più asciutti; un reparto customer care con risposte meno ridondanti; un analista con sintesi più rapide ma magari meno dettagliate. L’aggiornamento del modello va quindi trattato come un aggiornamento di prodotto: si prova, si confronta, si decide se cambiare prompt, template o istruzioni interne.

Questo vale soprattutto quando l’AI entra in processi ripetibili. Se un’azienda ha creato prompt standard per preventivi, email commerciali, report o triage tecnico, dovrebbe mantenere un piccolo set di casi di prova. Non serve un laboratorio complesso: bastano dieci input rappresentativi e criteri chiari, come accuratezza, tono, completezza, lunghezza e presenza di fonti. Ogni aggiornamento di modello può essere valutato contro quel set. È un modo semplice per evitare che un miglioramento generale diventi un peggioramento specifico nel proprio flusso di lavoro.

Gemini 3.5 Pro prende tempo mentre le API cambiano sotto i team

Il secondo grande tema della giornata riguarda Google. A maggio, in un post Google Cloud sulle novità di I/O, l’azienda aveva scritto che Gemini 3.5 Pro era in test e sarebbe arrivato il mese successivo. Ora Business Insider riporta che il lancio sarebbe slittato verso luglio, mentre Google raccoglie feedback da tester e rifinisce il modello. La società, secondo il report, non ha commentato ufficialmente. Questo obbliga a usare cautela: non è un annuncio formale, ma è comunque una notizia rilevante perché tocca la credibilità delle promesse sui modelli frontier.

Gemini 3.5 Pro è atteso perché dovrebbe essere la parte più potente della famiglia 3.5, dopo il rilascio di Gemini 3.5 Flash. Il mercato guarda soprattutto a ragionamento, coding, agenti e task lunghi. Sono proprio le aree in cui OpenAI, Anthropic, GitHub, Cursor e altri stanno spingendo più forte. Se Google prende più tempo, la lettura più utile non è “ritardo uguale fallimento”, ma “il margine d’errore sui modelli agentici è diventato più basso”. Un modello che consuma troppi token, sbaglia tool call o non regge task lunghi può costare molto più del beneficio che promette.

La parte ufficiale da non ignorare è il changelog per sviluppatori. Nelle note della Gemini API, Google segnala spegnimenti e deprecazioni ravvicinate: alcuni modelli Gemini 2.0 sono già chiusi, i modelli immagine preview gemini-3.1-flash-image-preview e gemini-3-pro-image-preview vengono spenti il 25 giugno, e modelli video Veo hanno una scadenza al 30 giugno. Per chi ha prototipi in produzione, non è un dettaglio amministrativo. È una possibile interruzione.

Questa è la vera lezione operativa su Gemini. Anche quando un modello nuovo tarda qualche settimana, le migrazioni dei modelli vecchi continuano. Un team che usa AI Studio, Gemini API o pipeline video deve sapere quali model ID sono ancora validi, quali sono preview, quali sono GA e quali verranno spenti. La velocità dell’AI crea una forma di debito tecnico diversa: non basta aggiornare librerie, bisogna aggiornare assunzioni sul modello.

Per Google, la sfida è duplice. Da una parte deve consegnare Gemini 3.5 Pro con una qualità abbastanza alta da competere nelle attività lunghe e agentiche; dall’altra deve evitare che gli sviluppatori percepiscano l’ecosistema come instabile. La fiducia di un builder nasce da prestazioni, documentazione, costi e prevedibilità. Se un modello arriva più tardi ma è solido, il ritardo può essere accettabile. Se arriva insieme a una catena di deprecazioni confuse, il danno è diverso: i team iniziano a costruire astrazioni per poter cambiare provider più facilmente.

Il tema non riguarda solo chi usa Gemini direttamente. Molti prodotti terzi integrano modelli Google dietro funzioni di image generation, video, ricerca, documenti o agenti. Quando un endpoint cambia, il cliente finale spesso non vede il nome modello, ma vede l’errore, il rallentamento o la qualità diversa. Per questo i fornitori che costruiscono sopra API AI devono comunicare meglio le dipendenze: quale modello viene usato, quale alternativa è pronta, cosa succede se un preview si spegne e quanto anticipo serve per testare una migrazione.

La competizione tra provider si giocherà anche su questo livello. Un modello leggermente meno performante ma con lifecycle chiaro può essere preferibile in settori regolati, dove la continuità pesa più dell’ultimo punto di benchmark. Al contrario, un team di ricerca o un prodotto consumer può accettare più instabilità pur di usare capacità nuove prima degli altri. Google deve servire entrambi: chi vuole sperimentare e chi vuole costruire. La difficoltà è che spesso usano gli stessi nomi di prodotto, ma hanno tolleranze al rischio molto diverse.

Copilot corre, ma il coding AI diventa una bolletta

Il terzo fronte è GitHub Copilot. Secondo Business Insider, GitHub avrebbe vissuto il suo “best month ever” grazie alla domanda di coding AI e al maggiore uso di Copilot dopo il passaggio a una tariffazione basata sul consumo. La citazione attribuita al CTO Vladimir Fedorov è esplicita: giugno sarebbe stato di gran lunga il mese migliore. Microsoft non ha commentato, quindi anche qui conviene distinguere tra report e comunicazione ufficiale. Ma il contesto ufficiale esiste: GitHub aveva annunciato che tutti i piani Copilot sarebbero passati a GitHub AI Credits dal primo giugno, con consumo calcolato su token di input, output e cache.

June was by far our best month ever.

Questa frase conta perché ribalta una narrativa troppo semplice. Molti utenti hanno reagito male ai prezzi variabili, eppure l’uso può crescere proprio quando il prodotto diventa più costoso o più misurato. Perché? Perché l’AI coding sta diventando utile abbastanza da sopravvivere al fastidio del contatore. Se un agente risolve bug, scrive test, esplora repository e riduce ore di lavoro, un team può accettare una bolletta più alta. Ma la tolleranza dipende dalla prevedibilità: un conto che cresce perché un agente è produttivo è diverso da un conto che esplode perché l’agente ha girato a vuoto.

Il passaggio ai crediti rende Copilot più simile a un servizio cloud. Non si paga più solo l’accesso: si paga l’intensità d’uso. Questo sposta il controllo dai singoli sviluppatori anche verso amministratori, procurement, FinOps e security. Un CTO vorrà sapere quali repository consumano di più, quali modelli costano di più, quali attività meritano un agente e quali restano più economiche con autocomplete, ricerca locale o una normale code review umana.

Il report di Business Insider parla anche di tensioni di capacità e concorrenza con Cursor, Codex e Claude Code. Qui il punto non è scegliere un vincitore, ma capire il mercato: il coding è il primo caso d’uso enterprise in cui i modelli agentici hanno una metrica economica immediata. Se un assistente apre una pull request utile, l’azienda può misurare tempo risparmiato, qualità, difetti, consumo e costo. Questo rende il coding AI il laboratorio più visibile per il futuro degli agenti in altri domini.

Per gli sviluppatori, la nuova disciplina è pratica. Usare Copilot o strumenti simili senza limiti, senza log e senza revisione dei prompt diventa rischioso. Un agente può leggere troppo contesto, iterare troppo, chiamare modelli costosi per task banali o generare modifiche che poi richiedono più tempo di revisione. Il nuovo criterio non è “l’AI scrive codice”, ma l’AI produce una modifica verificabile a un costo accettabile. È una differenza enorme.

Il prezzo variabile modifica anche la cultura interna dei team. Con un abbonamento fisso, l’incentivo era usare l’assistente il più possibile. Con i crediti, l’incentivo diventa usare l’assistente nel modo più efficace. Questo può migliorare la qualità dei prompt, perché costringe a descrivere meglio il problema, ridurre il contesto inutile, chiedere patch più piccole e fermare l’agente quando devia. Può anche creare attrito, soprattutto se gli sviluppatori percepiscono il budget come un controllo punitivo. La differenza la farà la trasparenza: dati chiari, limiti ragionevoli e libertà di usare modelli più potenti quando il task lo giustifica.

Per GitHub, il rischio non è solo il prezzo. È la fiducia nel rapporto tra consumo e valore. Se un utente capisce perché ha speso crediti, può cambiare comportamento. Se vede soltanto un contatore che cala, inizierà a ridurre l’uso o a provare alternative. La stessa dinamica arriverà negli altri strumenti AI: agenti per fogli di calcolo, CRM, assistenza clienti, design e analisi dati. Più l’AI agisce in autonomia, più il cliente vorrà sapere quanto ha consumato e cosa ha prodotto.

Il trend reale è la guerra per l’efficienza, non solo per il modello

Se mettiamo insieme OpenAI, Google e GitHub, emerge un trend molto più maturo della solita classifica dei modelli. Tutti stanno cercando di trasformare capacità AI in sistemi sostenibili. OpenAI progetta chip per servire inferenza con meno attrito; Google gestisce una pipeline rapida di modelli, preview e migrazioni; GitHub monetizza il consumo reale degli assistenti di codice. È la stessa pressione vista da tre angolazioni: capacità, affidabilità e costo.

Questa fase premia chi misura meglio. Per un laboratorio AI, misurare significa sapere quali carichi meritano silicio dedicato. Per una piattaforma, significa sapere quali modelli vanno resi default e quali vanno ritirati. Per un’azienda cliente, significa sapere quando usare un agente, quando usare un modello economico e quando non usare AI affatto. La parola “agentico” resta seducente, ma la parola più importante è allocazione: allocare compute, token, tempo umano e rischio.

Il paradosso è che l’AI sembra diventare più magica proprio mentre diventa più contabile. Un assistente può parlare meglio, capire più contesto e agire su strumenti; allo stesso tempo, dietro quella semplicità ci sono quote, crediti, model ID, finestre di deprecazione, policy di accesso, chip specializzati e contratti di capacità. Chi compra o usa AI deve imparare a leggere entrambi i livelli. La demo mostra l’esperienza; il contratto e il changelog mostrano il costo reale.

Per questo Nvidia resta centrale anche quando OpenAI presenta un chip. Il mercato non sostituisce una dipendenza con un annuncio. La domanda continua a crescere, training e inferenza richiedono hardware diverso, e la capacità migliore rimane scarsa. Ma la direzione è chiara: i grandi player vogliono più controllo. Google usa TPU e servizi cloud, Amazon ha Trainium e Inferentia, Microsoft sviluppa silicio proprio, Meta investe in infrastruttura, OpenAI ora porta il proprio nome su un processore. La nuova concorrenza è tra stack, non tra singoli prodotti.

Questa dinamica ha anche un effetto geopolitico e regolatorio. Chip custom, data center gigawatt, accesso a modelli frontier, esportazioni e talenti AI diventano pezzi della stessa partita. Una funzionalità lanciata in una chat può dipendere da vincoli energetici, forniture, policy nazionali e scelte di cloud. Chi segue l’AI solo dal lato consumer rischia di vedere le novità come funzioni isolate; chi la segue dal lato industriale capisce che ogni nuova feature è una promessa di capacità futura.

Per il mercato europeo, questo passaggio è particolarmente delicato. Molte aziende vogliono usare AI avanzata, ma devono farlo dentro vincoli di dati, residenza, audit, sicurezza e contratti pubblici. Se i provider più forti controllano anche chip, cloud e distribuzione, la dipendenza può aumentare. Allo stesso tempo, la specializzazione dell’infrastruttura può abbassare costi e rendere disponibili strumenti migliori. La scelta non sarà tra usare o non usare AI, ma tra usare piattaforme chiuse, layer intermedi, modelli open, cloud europei o combinazioni ibride. La decisione va presa prima che i workflow diventino troppo difficili da spostare.

Il tool da provare è Copilot con un vero budget operativo

La sezione tool di oggi non è un invito a installare l’ennesimo chatbot. È un invito a usare GitHub Copilot, o qualunque assistente di codice equivalente, con una pratica che molti team ancora evitano: un budget operativo per task. Invece di chiedere genericamente “quanto costa Copilot?”, la domanda utile è “quanto costa far risolvere a un agente questa classe di problemi, con quale tasso di successo e quanto tempo umano resta nella review?”.

Un esperimento semplice può bastare. Scegliete dieci issue ricorrenti: piccoli bug, refactor localizzati, scrittura di test, aggiornamento di dipendenze, documentazione tecnica, migrazioni di API. Per ciascuna, segnate durata umana stimata, crediti o token consumati, numero di iterazioni, qualità della patch, tempo di revisione e necessità di rollback. Dopo due settimane, avrete una mappa molto più utile di qualsiasi slogan. Scoprirete quali task sono perfetti per un agente e quali invece consumano troppo contesto per un risultato mediocre.

La parte più interessante è che questo esercizio non dipende solo da Copilot. Vale per Codex, Claude Code, Cursor, Gemini dentro IDE e qualsiasi workflow agentico. La differenza tra strumenti emergerà dai numeri: quale modello capisce meglio il vostro repository, quale si perde in file inutili, quale produce test validi, quale costa meno a parità di risultato. È una forma di benchmark privato, più significativa dei ranking generici perché usa il vostro codice e i vostri vincoli.

Per un team piccolo, la regola può essere molto concreta: agenti costosi solo su task con definizione chiara, test eseguibili e impatto misurabile. Per un team grande, servono policy: limiti per repository, alert su consumo anomalo, template di prompt, modelli preferiti per categoria di lavoro, revisione obbligatoria delle patch agentiche e un registro delle decisioni. Questo non rallenta l’AI; la rende più scalabile. Senza queste regole, il rischio è usare strumenti avanzati come se fossero giocattoli a costo fisso.

Un altro accorgimento è separare esplorazione e produzione. Nella fase esplorativa può avere senso lasciare più libertà all’agente: leggere file, proporre strategie, creare ipotesi, confrontare approcci. Nella fase produttiva, invece, il task dovrebbe diventare stretto: file coinvolti, test da eseguire, formato della patch, limiti di scope e criterio di successo. Questa distinzione riduce consumo e rumore. Spesso l’agente spreca token non perché sia incapace, ma perché gli chiediamo di risolvere insieme scoperta, pianificazione e modifica finale.

La skill utile è scegliere il modello prima del prompt

Il consiglio pratico della giornata è questo: prima di scrivere il prompt, scegliete la classe di modello e il livello di autonomia. Molti utenti fanno il contrario. Aprono il modello più potente, incollano tutto il contesto e chiedono di “sistemare”. Funziona a volte, ma è il modo più costoso per usare AI. Una skill più matura parte da quattro domande: il task richiede ragionamento profondo? richiede accesso a molti file? richiede creatività? richiede azione autonoma su strumenti?

Se la risposta è no, un modello veloce o un autocomplete possono bastare. Se serve solo riscrivere testo, non serve un agente. Se serve estrarre punti da un documento breve, non serve caricare un intero progetto. Se serve modificare codice, conviene prima delimitare file, test e criteri di accettazione. Se serve ragionamento lungo, allora ha senso usare il modello più capace, ma con un perimetro chiaro. Il risparmio non nasce dal usare sempre il modello economico; nasce dal non usare il modello costoso per compiti che non lo meritano.

Questa skill diventerà ancora più importante con chip custom e pricing a consumo. Se l’inferenza diventa più economica, useremo più AI; se useremo più AI, sprecheremo più facilmente capacità; se i provider sposteranno i costi su crediti e token, i team dovranno imparare a governare la domanda interna. La maturità non sarà “abbiamo adottato l’AI”, ma abbiamo un metodo per decidere quando l’AI è il mezzo giusto.

Una buona abitudine è creare tre corsie. Prima corsia: risposta rapida e a basso costo per chiarimenti, bozze e micro-task. Seconda corsia: modello medio per analisi con contesto limitato e output strutturato. Terza corsia: agente o modello frontier per task lunghi, solo quando esistono test, owner e budget. Questa classificazione riduce sprechi e migliora anche la qualità, perché ogni richiesta viene preparata con il giusto livello di dettaglio.

Vale anche per la scrittura e la ricerca, non solo per il codice. Se state preparando un documento, chiedete prima una scaletta a un modello rapido, poi usate un modello più forte solo per la parte critica. Se state confrontando prodotti, dividete fonti, criteri e decisione finale. Se state creando immagini o video, controllate quali modelli sono preview e quali saranno spenti. La skill è trattare l’AI come una filiera, non come una scatola unica.

Cosa monitorare tra Jalapeño, Gemini Pro e coding agenti

La prima cosa da monitorare è la roadmap reale di Jalapeño. L’annuncio è forte, ma serviranno dati indipendenti: prestazioni per watt, disponibilità, carichi supportati, integrazione con Azure e altri data center, impatto su limiti di ChatGPT e API. La domanda non è se OpenAI abbia costruito “il chip anti-Nvidia”, formula troppo facile. La domanda è se riuscirà a usare chip custom per rendere i suoi prodotti più accessibili, veloci e prevedibili.

La seconda è Gemini 3.5 Pro. Se il report sullo slittamento sarà confermato dai fatti, luglio diventerà un test importante per Google. Un ritardo breve può essere positivo se produce un modello più stabile. Ma gli sviluppatori guarderanno anche token, costi, tool calling, compatibilità con Antigravity, qualità nel coding e chiarezza delle migrazioni. In un mercato in cui i team costruiscono layer di astrazione per cambiare modello, la fiducia è un asset fragile.

La terza è Copilot. Se GitHub continua a crescere dopo il passaggio ai crediti, significa che il valore percepito del coding AI supera la frizione del prezzo variabile. Ma il modello economico dovrà restare comprensibile. Gli utenti accettano di pagare per produttività; accettano meno volentieri di pagare per opacità. Aspettatevi più strumenti di budget, report per amministratori, limiti configurabili e confronto aggressivo tra modelli integrati.

La quarta è il comportamento degli utenti. La fase 2023-2025 è stata dominata dalla domanda “cosa può fare l’AI?”. La fase che sta iniziando chiede “come la inseriamo senza perdere controllo?”. La risposta passa da chip, modelli e prodotti, ma anche da abitudini quotidiane: prompt più precisi, contesto più pulito, task più piccoli, test più forti, budget visibile. È meno romantico, ma è il passaggio che trasforma l’AI da novità a infrastruttura.

Conviene monitorare anche il linguaggio dei provider. Quando una società parla di “piattaforma”, “roadmap multi-generazione”, “crediti”, “managed agents” o “default model”, sta dicendo come intende distribuire potere e costi. Quelle parole spesso anticipano più dei benchmark: indicano quali funzioni saranno spinte, quali saranno ritirate e dove finirà il controllo. Leggere changelog, note di prezzo e documentazione tecnica diventa quindi parte della alfabetizzazione AI, non un lavoro solo per sviluppatori.

La differenza, nei prossimi mesi, sarà tra chi subirà questi cambiamenti come sorprese e chi li tratterà come segnali operativi da mettere subito in roadmap, budget, formazione, architettura, revisione dei contratti e responsabilità dei team.

La sintesi della giornata è quindi netta. OpenAI vuole possedere più pezzi della fabbrica dell’intelligenza; Google deve dimostrare che la potenza di Gemini arriva con tempi e migrazioni gestibili; GitHub mostra che gli agenti di codice possono crescere anche quando il costo diventa esplicito. Per chi lavora con l’AI, la domanda migliore non è “quale modello vince oggi?”, ma “quale combinazione di modello, infrastruttura e regole posso usare senza farmi sorprendere domani?”.