L'esperienza visiva dei bambini potrebbe essere la chiave per migliorare l'addestramento della visione artificiale

Un recente studio condotto da un team interdisciplinare della Pennsylvania State University (Penn State) propone un nuovo metodo per addestrare i sistemi di intelligenza artificiale (AI) a identificare oggetti e navigare negli ambienti, ispirandosi allo sviluppo visivo umano. Questa innovazione potrebbe migliorare significativamente la capacità delle AI di operare in ambienti estremi o esplorare mondi lontani. I risultati, pubblicati sulla rivista Patterns, mostrano come le AI addestrate con questo nuovo metodo superino i modelli tradizionali del 14.99% nelle performance.

Lizhen Zhu, il candidato dottorale alla guida dello studio, spiega che le attuali tecniche impiegate nell'addestramento dell'AI si basano prevalentemente su enormi dataset di immagini estratte casualmente da Internet. Il nuovo approccio, invece, trae ispirazione dalla psicologia dello sviluppo infantile, esaminando il modo in cui i bambini interagiscono e percepiscono il mondo che li circonda.

Il concetto alla base della ricerca è l'impiego di algoritmi di apprendimento contrastivo, una forma di apprendimento auto-supervisionato in cui un sistema AI apprende a riconoscere schemi visivi comparando immagini. Tuttavia, una novità significativa presentata dal gruppo di ricercatori consiste nel trattare immagini dello stesso oggetto, riprese da angolazioni diverse, come coppie positive nonostante le variazioni di posizione della camera, angolazione della luce o lunghezza focale.

Per generare un set di dati egocentrico ricco di informazioni spaziotemporali, i ricercatori hanno creato ambienti virtuali sulla piattaforma ThreeDWorld, simulando esperienze visive simili a quelle di un bambino che si muove all'interno di una casa. Questo ha permesso di manipolare e misurare le posizioni delle telecamere di visualizzazione in un modo altamente controllato. Gli ambienti simulati includono House14K, House100K e Apartment14K, dove "14K" e "100K" indicano il numero approssimativo di immagini campione raccolte in ciascun ambiente.

Con le simulazioni eseguite, i modelli formati con il nuovo algoritmo hanno superato i modelli di base in una varietà di compiti. Ad esempio, nel riconoscimento degli ambienti di un appartamento virtuale, il modello migliorato ha raggiunto una percentuale media di successo del 99.35%, migliorando le prestazioni del 14.99% rispetto al modello di base.

James Wang, professore distinto di scienze e tecnologie dell'informazione e mentore di Zhu, sottolinea l'importanza di questa ricerca per lo sviluppo futuro di sistemi AI avanzati, capaci di apprendere e orientarsi in nuovi ambienti. In particolare, l'approccio potrebbe essere estremamente utile in scenari dove robot autonomi con risorse limitate devono imparare a navigare in ambienti completamente sconosciuti.

Per ulteriori dettagli sullo studio, è possibile consultare la pubblicazione di Lizhen Zhu et al., "Incorporating simulated spatial context information improves the effectiveness of contrastive learning models", su Patterns (2024).

La ricerca ha visto la collaborazione di esperti del Dipartimento di Psicologia e del Dipartimento di Informatica e Ingegneria di Penn State, che hanno contribuito significativamente allo studio.