Nuova tecnica combina dati da diverse fonti per robot multifunzionali più efficaci

Addestrare un robot affinché riesca a manipolare diversi strumenti, come martelli, chiavi inglesi e cacciaviti, e apprenda rapidamente a eseguire riparazioni domestiche richiede una vasta raccolta di dati relativi all'uso degli attrezzi. I dataset robotici esistenti presentano un'ampia varietà di modalità e dominii, tra cui immagini a colori e impronte tattili, raccolti sia in simulazioni che durante dimostrazioni umane. Ogni set di dati descrive compiti e ambienti unici, rendendo complicato integrarli efficacemente in un singolo modello di apprendimento automatico.

Spesso, per ovviare a questa difficoltà, si addestrano i robot utilizzando un solo tipo di dati, limitando di fatto la loro efficacia in ambienti e compiti non familiari. Per superare questi ostacoli, ricercatori del Massachusetts Institute of Technology (MIT) hanno sviluppato una tecnica innovativa che unisce molteplici fonti di dati attraverso l'uso di modelli generativi di intelligenza artificiale, noti come modelli di diffusione.

Questa strategia implica l'addestramento di un modello di diffusione separato per ogni compito specifico, che apprende una politica dai dati a sua disposizione. Successivamente, le politiche apprese dai vari modelli vengono combinate in una politica generale che consente al robot di eseguire molteplici compiti in vari contesti. Tale approccio ha mostrato, attraverso simulazioni e esperimenti reali, un miglioramento del 20% nelle prestazioni dei compiti rispetto alle tecniche di base.

Lirui Wang, studente di ingegneria elettrica e informatica e autore principale della ricerca, spiega il dilemma affrontato: "Affrontare l'eterogeneità nei dataset robotici è un problema classico del tipo 'cosa viene prima, l'uovo o la gallina?'. Se vogliamo utilizzare molta data per addestrare politiche robotiche generali, prima di tutto abbiamo bisogno di robot implementabili per raccogliere tutti questi dati. Penso che sfruttare tutti i dati eterogenei disponibili, simile a quanto fatto con ChatGPT, sia un passo importante per il campo della robotica".

Il team di ricerca, incluso Jialiang Zhao, Yilun Du, Edward Adelson e il professor Russ Tedrake, ha presentato il lavoro alla conferenza Robotica: Scienza e Sistemi tenutasi a Delft, Paesi Bassi.

La tecnica di composizione delle politiche permette di combinare dataset molto diversi tra loro, aiutando il robot a gestire una varietà di strumenti. Per esempio, separando l'addestramento delle politiche, è possibile mescolare e adattare le politiche di diffusione per ottenere risultati migliori per un determinato compito o introdurre dati in una nuova modalità o dominio senza dover ricominciare da zero l'intero processo.

PoCo, il metodo di composizione delle politiche sviluppato dal team, ha permesso ai robot di eseguire compiti come piantare un chiodo con un martello o girare un oggetto con una spatola, dimostrando un marcato miglioramento delle prestazioni. Guardando al futuro, i ricercatori desiderano applicare questa tecnica a compiti a lungo termine, dove un robot potrebbe passare da uno strumento all'altro, e integrare set di dati robotici più ampi per migliorare ulteriormente il rendiemento.

Jim Fan, scienziato senior di NVIDIA e leader dell'AI Agents Initiative, che non è coinvolto direttamente nello studio, commenta: "Avremo bisogno di tutti e tre i tipi di dati per avere successo nella robotica: dati dalla rete, dati da simulazioni e dati da robot reali. Capire come combinarli efficacemente sarà la questione da un milione di dollari. PoCo rappresenta un solido passo nella giusta direzione."

Per maggiori informazioni, si può consultare il documento di Lirui Wang et al, PoCo: Policy Composition from and for Heterogeneous Robot Learning, pubblicato su arXiv. Informazioni addizionali sono disponibili sulla piattaforma arXiv.