Mistral AI e NVIDIA svelano il modello NeMo 12B

Mistral AI ha annunciato il lancio di NeMo, un nuovo modello di intelligenza artificiale da 12 miliardi di parametri sviluppato in collaborazione con NVIDIA. Questo modello si distingue per la sua impressionante finestra di contesto di 128.000 token e promette prestazioni all'avanguardia in termini di ragionamento, conoscenza del mondo e accuratezza nella programmazione per la sua categoria dimensionale.

La partnership tra Mistral AI e NVIDIA ha portato alla creazione di un modello che non solo spinge i confini delle performance, ma pone anche grande attenzione alla facilità d'uso. NeMo è infatti progettato per sostituire in modo trasparente i sistemi che attualmente utilizzano Mistral 7B, grazie all'impiego di un'architettura standard.

In un'ottica di promozione dell'adozione e della ricerca, Mistral AI ha reso disponibili sia i checkpoint pre-addestrati di base che quelli con istruzioni ottimizzate sotto la licenza Apache 2.0. Questo approccio open source mira ad attrarre ricercatori e aziende, potenzialmente accelerando l'integrazione del modello in varie applicazioni.

Caratteristiche principali di Mistral NeMo

Una delle caratteristiche chiave di Mistral NeMo è la sua consapevolezza della quantizzazione durante l'addestramento, che consente l'inferenza FP8 senza compromettere le prestazioni. Questa capacità potrebbe rivelarsi cruciale per le organizzazioni che cercano di implementare grandi modelli linguistici in modo efficiente.

Mistral AI ha fornito confronti prestazionali tra il modello base Mistral NeMo e due recenti modelli pre-addestrati open source: Gemma 2 9B e Llama 3 8B.

"Questo è un nuovo passo verso la messa a disposizione di modelli AI di frontiera nelle mani di tutti, in tutte le lingue che formano la cultura umana."

NeMo introduce anche Tekken, un nuovo tokenizzatore basato su Tiktoken. Addestrato su oltre 100 lingue, Tekken offre una migliore efficienza di compressione sia per il testo in linguaggio naturale che per il codice sorgente rispetto al tokenizzatore SentencePiece utilizzato nei precedenti modelli Mistral. L'azienda riporta che Tekken è circa il 30% più efficiente nella compressione del codice sorgente e di diverse lingue principali, con guadagni ancora più significativi per il coreano e l'arabo.

Mistral AI sostiene inoltre che Tekken supera il tokenizzatore di Llama 3 nella compressione del testo per circa l'85% di tutte le lingue, potenzialmente conferendo a Mistral NeMo un vantaggio nelle applicazioni multilingue.

Disponibilità e implementazione

I pesi del modello sono ora disponibili su HuggingFace sia per la versione base che per quella con istruzioni. Gli sviluppatori possono iniziare a sperimentare con Mistral NeMo utilizzando lo strumento mistral-inference e adattarlo con mistral-finetune. Per coloro che utilizzano la piattaforma Mistral, il modello è accessibile con il nome open-mistral-nemo.

Come segno tangibile della collaborazione con NVIDIA, Mistral NeMo è anche confezionato come microservizio di inferenza NVIDIA NIM, disponibile attraverso ai.nvidia.com. Questa integrazione potrebbe semplificare l'implementazione per le organizzazioni già investite nell'ecosistema AI di NVIDIA.

Il rilascio di Mistral NeMo rappresenta un significativo passo avanti nella democratizzazione dei modelli AI avanzati. Combinando alte prestazioni, capacità multilingue e disponibilità open source, Mistral AI e NVIDIA stanno posizionando questo modello come uno strumento versatile per una vasta gamma di applicazioni AI in vari settori industriali e campi di ricerca.

L'intelligenza artificiale ha compiuto passi da gigante negli ultimi anni, e il lancio di NeMo da parte di Mistral AI rappresenta un'ulteriore evoluzione in questo campo in rapida crescita. Le origini dell'intelligenza artificiale risalgono agli anni '50, quando pionieri come Alan Turing e John McCarthy gettarono le basi teoriche per questa disciplina.

Un aspetto interessante della storia dell'IA è il concetto di "inverno dell'IA", periodi in cui l'entusiasmo e i finanziamenti per la ricerca sull'IA diminuivano drasticamente. Il primo "inverno" si verificò negli anni '70, seguito da un altro negli anni '80 e '90. Tuttavia, l'avvento del deep learning e dei big data ha portato a una rinascita dell'IA nel 21° secolo.

La collaborazione tra Mistral AI e NVIDIA per lo sviluppo di NeMo riflette una tendenza crescente di partnership tra startup innovative e giganti tecnologici. Questa sinergia permette di combinare l'agilità e la creatività delle startup con le risorse e l'esperienza delle grandi aziende.

L'intelligenza artificiale è la nuova elettricità, affermò Andrew Ng, uno dei pionieri del machine learning moderno. Questa citazione sottolinea l'importanza trasformativa dell'IA in tutti i settori dell'economia e della società.

Una curiosità riguarda la scelta del nome "NeMo". Mentre potrebbe sembrare un riferimento al famoso pesce pagliaccio del film d'animazione, in realtà è probabile che derivi da "Neural Model", enfatizzando la natura neurale del modello di intelligenza artificiale.

La finestra di contesto di 128.000 token di NeMo è particolarmente impressionante. Per mettere questa cifra in prospettiva, consideriamo che un romanzo medio contiene circa 80.000 parole. Ciò significa che NeMo potrebbe teoricamente elaborare e comprendere il contesto di più di un intero libro alla volta.

L'approccio open source adottato da Mistral AI per NeMo si inserisce in una lunga tradizione di condivisione delle conoscenze nel campo dell'informatica e dell'IA. Questo spirito di collaborazione ha radici profonde, risalenti ai primi giorni di Internet e al movimento del software libero iniziato da Richard Stallman negli anni '80.

Il tokenizzatore Tekken, con la sua efficienza multilingue, riflette l'importanza crescente della diversità linguistica nell'IA. Storicamente, molti modelli di IA erano fortemente orientati verso l'inglese, ma c'è una spinta crescente verso modelli che possano comprendere e generare contenuti in una vasta gamma di lingue, riflettendo meglio la diversità linguistica globale.

Infine, è interessante notare come l'evoluzione di modelli come NeMo stia gradualmente avvicinando l'IA al concetto di "intelligenza artificiale generale" (AGI), un'idea che ha affascinato scienziati e filosofi per decenni. Mentre siamo ancora lontani dall'AGI, ogni passo avanti in termini di capacità di ragionamento e comprensione del contesto ci avvicina a questo obiettivo ambizioso.

Mistral AI e NVIDIA svelano il modello NeMo 12B

> Mistral AI presenta NeMo: nuovo modello IA da 12B con finestra di contesto di 128.000 token. Prestazioni avanzate in ragionamento, conoscenza e codifica.

Caratteristiche principali di Mistral NeMo

Disponibilità e implementazione