Elon Musk lancia xAI: Grok diventerà multimodale

La società di intelligenza artificiale di Elon Musk, xAI, sta facendo progressi significativi con il suo chatbot Grok, integrando input multimodali secondo i documenti pubblici per sviluppatori. Questa funzionalità consentirà presto agli utenti di caricare foto su Grok e ricevere risposte in formato testuale. L'aggiornamento è stato anticipato per la prima volta in un post sul blog di xAI il mese scorso, che annunciava che Grok-1.5V avrebbe supportato "modelli multimodali in diversi ambiti".

Le ultime modifiche ai documenti per sviluppatori mostrano progressi nel rilascio di un nuovo modello. Una demo in Python inclusa nei documenti illustra come gli sviluppatori possano utilizzare la libreria del kit di sviluppo software (SDK) di xAI per generare una risposta combinando testo e immagini. Lo script legge un file di immagine, imposta un prompt di testo e utilizza lo SDK di xAI per generare una risposta.

Questo rappresenta un importante aggiornamento per Grok, lanciato da xAI a novembre 2023 e disponibile per gli utenti che sottoscrivono l'abbonamento X Premium Plus. L'ultima versione, Grok 1.5, è stata rilasciata a marzo e includeva capacità di ragionamento migliorate.

Il modello è stato addestrato "su una varietà di dati testuali provenienti da fonti disponibili pubblicamente su Internet fino al terzo trimestre del 2023 e set di dati esaminati e curati da revisori umani", secondo quanto riportato da un post sul blog di X. Si sottolinea che Grok-1 non era stato addestrato sui dati di X (inclusi post pubblici di X), tuttavia, Grok possiede una "conoscenza in tempo reale del mondo", che include post su X.

xAI, fondata da Elon Musk a marzo 2023, è una novità nel campo dell'AI e si trova ancora dietro ai concorrenti come il ChatGPT di OpenAI. Tuttavia, un post del blog di xAI afferma che il loro modello Grok 1.5 sta colmando il divario con GPT-4 su vari benchmark che coprono problemi da scuola elementare a scuola superiore. È importante notare che i benchmark per i grandi modelli di linguaggio sono spesso oggetto di critiche in quanto i modelli possono eccellere nei benchmark se questi ultimi sono inclusi nei loro dati di addestramento.

I chatbot conversazionali multimodali sembrano essere il prossimo confine per l'intelligenza artificiale, con numerosi avanzamenti annunciati durante il Google I/O e il rilascio di GPT-4o da parte di OpenAI. Finora, la mancanza di capacità multimodali aveva lasciato Grok un passo indietro rispetto a questi sviluppi—fino ad ora.

Elon Musk lancia xAI: Grok diventerà multimodale

> xAI punta a recuperare terreno rispetto ai concorrenti con un nuovo aggiornamento multimodale.