Il sistema funziona combinando avanzati modelli di visione artificiale e di elaborazione del linguaggio naturale. In particolare, sfrutta reti neurali addestrate su miliardi di immagini e testi associati provenienti da internet. Ciò consente al robot di riconoscere oggetti e concetti in scene del tutto nuove.
Un elemento chiave di Clio è l'utilizzo del principio del "collo di bottiglia informativo" derivato dalla teoria dell'informazione. Questo permette di comprimere i dati della scena mantenendo solo i segmenti più rilevanti per il compito da svolgere.
Test in scenari reali
I ricercatori hanno testato Clio in diversi ambienti reali, tra cui un appartamento disordinato e un edificio del campus del MIT. In tutti i casi, il sistema è stato in grado di segmentare correttamente la scena e identificare gli oggetti pertinenti in base a istruzioni in linguaggio naturale come "sposta la pila di vestiti" o "prendi il kit di pronto soccorso".Un risultato particolarmente significativo è stato far funzionare Clio in tempo reale su un robot quadrupede della Boston Dynamics durante l'esplorazione di un edificio per uffici. Il sistema ha permesso al robot di mappare l'ambiente identificando solo gli elementi rilevanti per i suoi compiti, come recuperare un giocattolo per cani ignorando pile di materiale d'ufficio.
Potenziali applicazioni
Secondo i ricercatori, Clio potrebbe trovare applicazione in numerosi scenari: - Operazioni di ricerca e soccorso - Robotica domestica - Collaborazione uomo-robot in ambito industrialeIl professor Luca Carlone, tra gli autori dello studio, ha sottolineato che "si tratta di aiutare il robot a comprendere l'ambiente e cosa deve ricordare per portare a termine la sua missione".
Sviluppi futuri
Il team del MIT intende ora lavorare per rendere Clio in grado di gestire compiti di più alto livello. L'obiettivo è passare da istruzioni specifiche come "trova un mazzo di carte" a direttive più generali come "trova i sopravvissuti" in uno scenario di ricerca e soccorso.Inoltre, i ricercatori puntano a integrare Clio con i recenti progressi nelle rappresentazioni visive fotorealistiche delle scene, per migliorare ulteriormente le capacità di comprensione e interazione dei robot con l'ambiente circostante.
In conclusione, Clio rappresenta un importante passo avanti verso robot più intelligenti e versatili, in grado di operare efficacemente in ambienti complessi e dinamici interpretando correttamente il contesto in base ai compiti da svolgere. Questa tecnologia potrebbe aprire la strada a una nuova generazione di robot assistenti capaci di interagire in modo più naturale e intuitivo con gli esseri umani.