Il nuovo modello, chiamato EMMA (End-to-End Multimodal Model for Autonomous Driving), rappresenta un passo significativo verso l'integrazione dei modelli linguistici di grandi dimensioni (LLM) nella guida autonoma. Questo sviluppo potrebbe segnare una svolta nell'applicazione pratica degli LLM, finora principalmente utilizzati per chatbot, organizzazione delle email e generazione di immagini.
Come funziona EMMA
EMMA è progettato per elaborare i dati dei sensori e generare traiettorie future per i veicoli autonomi, aiutando i robotaxi di Waymo a prendere decisioni su dove andare e come evitare gli ostacoli. A differenza dei tradizionali sistemi di guida autonoma che utilizzano moduli specifici per varie funzioni (percezione, mappatura, previsione e pianificazione), EMMA adotta un approccio end-to-end.
Waymo sostiene che questo metodo potrebbe superare i limiti dei sistemi modulari, come gli errori accumulati tra i moduli e la comunicazione limitata tra di essi. Inoltre, EMMA potrebbe adattarsi meglio a "ambienti nuovi" grazie alla sua natura di modello generalista.
Vantaggi e limitazioni
Il modello EMMA sfrutta due caratteristiche chiave degli LLM come Gemini:
- La vasta conoscenza del mondo acquisita attraverso l'addestramento su enormi set di dati provenienti da Internet
- Le capacità di ragionamento superiori, che permettono di affrontare compiti complessi suddividendoli in una serie di passaggi logici
Waymo ha identificato diversi scenari in cui EMMA ha aiutato i veicoli autonomi a trovare il percorso giusto, come l'incontro con animali o lavori stradali. Tuttavia, il modello presenta anche alcune limitazioni:
- Impossibilità di incorporare input 3D da sensori come lidar o radar, a causa dell'elevato costo computazionale
- Capacità di elaborare solo una piccola quantità di fotogrammi alla volta
Prospettive future e sfide
Waymo riconosce che saranno necessarie ulteriori ricerche prima che EMMA possa essere messo in pratica su larga scala. L'azienda afferma: "Speriamo che i nostri risultati ispirino ulteriori ricerche per mitigare questi problemi e far evolvere ulteriormente lo stato dell'arte nelle architetture di modelli per la guida autonoma".
L'utilizzo di LLM per addestrare i robotaxi comporta anche rischi non menzionati nel paper di ricerca. I chatbot basati su questi modelli possono talvolta generare informazioni errate o fallire in compiti semplici. Considerando che i veicoli autonomi di Waymo operano in situazioni ad alto rischio, come la guida a 65 km/h su strade trafficate, il margine di errore deve essere estremamente ridotto.
Nonostante le sfide, lo sviluppo di EMMA rappresenta un importante passo avanti nell'applicazione pratica degli LLM nel campo della guida autonoma. Se Waymo riuscirà a superare le attuali limitazioni, questo approccio potrebbe rivoluzionare il settore, migliorando significativamente le capacità dei veicoli a guida autonoma di affrontare situazioni complesse e impreviste sulla strada.