Gemini di Google potrebbe addestrare i taxi Waymo

Waymo, la società di guida autonoma di Alphabet, ha annunciato lo sviluppo di un nuovo modello di addestramento per i suoi robotaxi basato sul modello linguistico multimodale Gemini di Google. La notizia è stata rivelata in un paper di ricerca pubblicato dall'azienda.

Il nuovo modello, chiamato EMMA (End-to-End Multimodal Model for Autonomous Driving), rappresenta un passo significativo verso l'integrazione dei modelli linguistici di grandi dimensioni (LLM) nella guida autonoma. Questo sviluppo potrebbe segnare una svolta nell'applicazione pratica degli LLM, finora principalmente utilizzati per chatbot, organizzazione delle email e generazione di immagini.

Come funziona EMMA

EMMA è progettato per elaborare i dati dei sensori e generare traiettorie future per i veicoli autonomi, aiutando i robotaxi di Waymo a prendere decisioni su dove andare e come evitare gli ostacoli. A differenza dei tradizionali sistemi di guida autonoma che utilizzano moduli specifici per varie funzioni (percezione, mappatura, previsione e pianificazione), EMMA adotta un approccio end-to-end.

Waymo sostiene che questo metodo potrebbe superare i limiti dei sistemi modulari, come gli errori accumulati tra i moduli e la comunicazione limitata tra di essi. Inoltre, EMMA potrebbe adattarsi meglio a "ambienti nuovi" grazie alla sua natura di modello generalista.

EMMA eccelle nella previsione delle traiettorie, nel rilevamento degli oggetti e nella comprensione del grafico stradale.

Vantaggi e limitazioni

Il modello EMMA sfrutta due caratteristiche chiave degli LLM come Gemini:

La vasta conoscenza del mondo acquisita attraverso l'addestramento su enormi set di dati provenienti da Internet
Le capacità di ragionamento superiori, che permettono di affrontare compiti complessi suddividendoli in una serie di passaggi logici

Waymo ha identificato diversi scenari in cui EMMA ha aiutato i veicoli autonomi a trovare il percorso giusto, come l'incontro con animali o lavori stradali. Tuttavia, il modello presenta anche alcune limitazioni:

Impossibilità di incorporare input 3D da sensori come lidar o radar, a causa dell'elevato costo computazionale
Capacità di elaborare solo una piccola quantità di fotogrammi alla volta

Prospettive future e sfide

Waymo riconosce che saranno necessarie ulteriori ricerche prima che EMMA possa essere messo in pratica su larga scala. L'azienda afferma: "Speriamo che i nostri risultati ispirino ulteriori ricerche per mitigare questi problemi e far evolvere ulteriormente lo stato dell'arte nelle architetture di modelli per la guida autonoma".

L'utilizzo di LLM per addestrare i robotaxi comporta anche rischi non menzionati nel paper di ricerca. I chatbot basati su questi modelli possono talvolta generare informazioni errate o fallire in compiti semplici. Considerando che i veicoli autonomi di Waymo operano in situazioni ad alto rischio, come la guida a 65 km/h su strade trafficate, il margine di errore deve essere estremamente ridotto.

Nonostante le sfide, lo sviluppo di EMMA rappresenta un importante passo avanti nell'applicazione pratica degli LLM nel campo della guida autonoma. Se Waymo riuscirà a superare le attuali limitazioni, questo approccio potrebbe rivoluzionare il settore, migliorando significativamente le capacità dei veicoli a guida autonoma di affrontare situazioni complesse e impreviste sulla strada.