Google sta compiendo progressi significativi nell'addestramento dei suoi robot utilizzando l'intelligenza artificiale Gemini. Secondo un nuovo studio del team di robotica di DeepMind, l'impiego di Gemini 1.5 Pro consente un'interazione più naturale con i robot RT-2 attraverso istruzioni in linguaggio comune.
Il processo funziona così: viene effettuata una ripresa video dell'area designata, come una casa o un ufficio. Gemini 1.5 Pro fa poi "osservare" il video al robot, permettendogli di apprendere l'ambiente. Successivamente, il robot può eseguire comandi basati su ciò che ha osservato, utilizzando output verbali o visivi.
Ad esempio, se si mostra un telefono al robot chiedendo "Dove posso caricarlo?", questo sarà in grado di guidare l'utente verso una presa di corrente.
I ricercatori hanno anche riscontrato prove preliminari che Gemini 1.5 Pro permette ai robot di pianificare l'esecuzione di istruzioni oltre la semplice navigazione. Ad esempio, se un utente chiede se la sua bevanda preferita è disponibile, il robot sa di dover navigare fino al frigorifero, controllare la presenza di lattine e tornare a riferire il risultato.
Tempi di elaborazione e prospettive future
Sebbene le dimostrazioni video fornite da Google siano impressionanti, è importante notare che l'elaborazione delle istruzioni richiede tra i 10 e i 30 secondi, come riportato nel documento di ricerca.
Nonostante ci vorrà del tempo prima di vedere robot avanzati per la mappatura ambientale nelle nostre case, questi progressi promettono sviluppi interessanti. In futuro, potremmo avere assistenti robotici in grado di aiutarci a trovare oggetti smarriti come chiavi o portafogli.