DeepMind di Google: il robot chatbot e la rivoluzione

Un nuovo robot sviluppato da Google DeepMind sta rivoluzionando il concetto di assistente d'ufficio robotico. Grazie all'integrazione dell'ultimo modello linguistico Gemini, questo automa su ruote è in grado di svolgere compiti complessi come fare da guida turistica e aiutare i dipendenti nelle loro attività quotidiane.

Il robot, testato negli uffici di Mountain View in California, dimostra notevoli capacità di comprensione e navigazione. Ad esempio, quando gli viene chiesto di "trovare un posto dove scrivere", è in grado di condurre autonomamente la persona verso una lavagna disponibile all'interno dell'edificio.

La chiave di queste avanzate funzionalità risiede nelle capacità multimodali di Gemini. Il modello linguistico può infatti elaborare contemporaneamente testo, video e grandi quantità di informazioni, permettendo al robot di orientarsi correttamente nell'ambiente e rispondere a comandi che richiedono un ragionamento di buon senso.

Come funziona il robot assistente di Google

Il sistema combina Gemini con un algoritmo che genera azioni specifiche per il robot, come girare o muoversi, in risposta ai comandi ricevuti e a ciò che "vede" davanti a sé. Secondo i ricercatori, il robot ha dimostrato un'affidabilità fino al 90% nella navigazione, anche con istruzioni complesse come "Dove ho lasciato il mio sottobicchiere?".

Il team di Google DeepMind afferma che questo approccio "ha migliorato significativamente la naturalezza dell'interazione uomo-robot e ha notevolmente aumentato l'usabilità del robot".

Gemini permette al robot di Google di interpretare istruzioni visive oltre che vocali, seguendo ad esempio uno schizzo su una lavagna che mostra un percorso verso una nuova destinazione.

Il potenziale dei modelli linguistici nel mondo fisico

Questa dimostrazione illustra chiaramente il potenziale dei grandi modelli linguistici di estendersi al mondo fisico e svolgere lavori utili. Finora, chatbot come Gemini operavano principalmente all'interno dei confini di un browser web o di un'app, ma stanno diventando sempre più capaci di gestire input visivi e uditivi.

Laboratori di ricerca accademici e industriali stanno gareggiando per scoprire come i modelli linguistici possano essere utilizzati per migliorare le capacità dei robot. La conferenza internazionale sulla robotica e l'automazione di maggio ha visto la presentazione di numerosi studi sull'uso di modelli linguistici visivi in ambito robotico.

L'interesse degli investitori

Gli investitori stanno puntando ingenti somme su startup che mirano ad applicare i progressi dell'IA alla robotica. Alcuni ricercatori coinvolti nel progetto Google hanno fondato Physical Intelligence, una startup che ha ricevuto un finanziamento iniziale di 70 milioni di dollari per combinare grandi modelli linguistici con l'addestramento nel mondo reale e dotare i robot di capacità generali di problem-solving.

Un'altra startup, Skild AI, fondata da robotici della Carnegie Mellon University, persegue un obiettivo simile e ha recentemente annunciato un finanziamento di 300 milioni di dollari.

Il futuro della robotica assistita dall'IA

Fino a pochi anni fa, un robot avrebbe avuto bisogno di una mappa dettagliata del suo ambiente e di comandi attentamente scelti per navigare con successo. I grandi modelli linguistici contengono informazioni utili sul mondo fisico, e le versioni più recenti addestrate su immagini e video, note come modelli linguistici visivi, possono rispondere a domande che richiedono percezione.

I ricercatori di Google DeepMind prevedono di testare il sistema su diversi tipi di robot. Ritengono inoltre che Gemini sarà in grado di comprendere domande più complesse, come "Hanno la mia bevanda preferita oggi?" da parte di un utente con molte lattine vuote di Coca-Cola sulla scrivania.

Questi sviluppi promettono di rendere i robot sempre più versatili e capaci di interagire in modo naturale con gli esseri umani, aprendo nuove possibilità per l'automazione e l'assistenza in vari contesti lavorativi e domestici.

L'integrazione di tecnologie avanzate nei robot attraverso modelli linguistici come Gemini di Google DeepMind offre uno sguardo affascinante sull'evoluzione della robotica e della sua interazione con l'intelligenza artificiale. Tali innovazioni rappresentano un punto di svolta nel rapporto storico tra uomini e macchine, rimodellando non solo il concetto di automazione, ma enfatizzando la natura collaborativa tra AI e umanità.

Esplorando le radici del concetto di robot, ci troviamo a retrocedere al teatro antico, in cui automi meccanici venivano costruiti per stupire e intrattenere. L'idea di creature meccaniche esercita da sempre un profondo fascino nelle culture di tutto il mondo. Dall'antica Grecia e le sue statue animate alle leggende del Golem nell'Europa orientale, si riscontrano esempi di come l'autonomia e l'intelligenza artificiale siano state tematiche ricorrenti nella storia umana.

Al di là della tecnologia, ciò che rende particolarmente intrigante il nuovo robot di Google DeepMind è la sua capacità di adattarsi a situazioni complesse grazie a Gemini. La natura multimodale di questo modello linguistico permette al robot di gestire e processare dati sensoriali e text-based in simultanea, un'innovazione notevole che potrebbe portare a uno sviluppo di scenari precedentemente impensabili. Ad esempio, questi sistemi "vedono" e "ascoltano", assimilando le informazioni provenienti dal loro ambiente in modi che migliorano l'interazione e la collaborazione.

È interessante osservare come queste tecnologie possano prendere spunto da metodi di apprendimento tradizionali. Analogamente a un umano che impara meglio mediante la combinazione di testo, immagini e interazione diretta, Gemini facilita processi di apprendimento simili per il robot. Questo approccio non solo migliorerebbe la corretta navigazione nei contesti richiesti, ma potrebbe anche aprire la strada all'uso di AI nelle scuole come tutor o assistenti educativi.

Dal punto di vista storico, l'accettazione sociale di innovazioni così radicali ha spesso incontrato ostacoli e sfide. Dal timore del "Golem" che si rivolta contro il suo creatore alle moderni inquietudini sull'IA che potrebbe superare le capacità umane, il percorso tecnologico è disseminationato di entusiasmi e preoccupazioni. Eppure, con una comunione tra etica e innovazione, progetti come quello di Google DeepMind dimostrano un dialogo continuo tra uomo e macchina, dove ogni nuova applicazione può dare luogo a una comprensione più profonda e rispettosa dell'intelligenza sia umana che artificiale.

In definitiva, i nuovi orizzonti aperti da Google DeepMind con il suo robot equipaggiato con Gemini sono un promemoria della continua evoluzione dell'ingegneria e del design robotico. Questa sinergia tra l'IA avanzata e i sistemi robotici suggerisce non solo nuove possibili modalità di interazione, ma solleva anche questioni etiche e filosofiche riguardanti il futuro della tecnologia e del suo impatto sulla società.