Giganti tech sfruttano YouTube per addestrare l'IA

Un'indagine condotta da Proof News e copubblicata con Wired ha rivelato che oltre 170.000 video di YouTube fanno parte di un vasto dataset utilizzato per addestrare sistemi di intelligenza artificiale di alcune delle più grandi aziende tecnologiche.

Tra le società che hanno utilizzato i dati "YouTube Subtitles", estratti senza autorizzazione dalla piattaforma video, figurano Apple, Anthropic, Nvidia e Salesforce. Il dataset di addestramento è una raccolta di sottotitoli presi da video YouTube appartenenti a più di 48.000 canali, ma non include le immagini dei video stessi.

Nel dataset compaiono video di creatori popolari come MrBeast e Marques Brownlee, così come clip di testate giornalistiche quali ABC News, BBC e The New York Times. Sono presenti anche oltre 100 video di The Verge, insieme a molti altri contenuti di Vox.

La reazione dei creatori di contenuti

Marques Brownlee, noto con lo pseudonimo MKBHD, ha commentato la notizia su X (ex Twitter): "Apple ha ottenuto dati per la sua IA da diverse aziende. Una di queste ha estratto una grande quantità di dati e trascrizioni dai video di YouTube, inclusi i miei". Ha aggiunto: "Questo sarà un problema in evoluzione per molto tempo".

Questo sarà un problema in evoluzione per molto tempo.

YouTube non ha ancora risposto alla richiesta di commento da parte di The Verge.

Il dataset e le sue implicazioni

Come parte della sua indagine, Proof News ha anche rilasciato uno strumento di ricerca interattivo. Gli utenti possono utilizzare questa funzione per verificare se i propri contenuti - o quelli dei loro YouTuber preferiti - appaiono nel dataset.

Il dataset dei sottotitoli fa parte di una più ampia raccolta di materiali chiamata The Pile, creata dall'organizzazione no-profit EleutherAI. Questa collezione open-source contiene anche dataset di libri, articoli di Wikipedia e altro ancora.

Lo scorso anno, un'analisi di un dataset chiamato Books3 ha rivelato quali opere di autori erano state utilizzate per addestrare sistemi di IA, e il dataset è stato citato in cause legali intentate da autori contro le aziende che lo hanno utilizzato per l'addestramento dell'IA.

La questione della trasparenza

Le aziende di IA sono raramente trasparenti riguardo ai dati utilizzati per i loro sistemi. L'uso specifico dei contenuti di YouTube è stato una questione chiave negli ultimi mesi.

A marzo, quando OpenAI ha presentato Sora, il suo potente strumento di generazione video, il CTO Mira Murati ha ripetutamente evitato di rispondere alle domande sull'eventuale utilizzo di video di YouTube per l'addestramento del sistema.

In precedenti interviste, il CEO di YouTube Neal Mohan ha affermato che l'uso di contenuti video per addestrare l'IA - incluse le trascrizioni - violerebbe i termini della piattaforma. A maggio, in un episodio di Decoder, il CEO di Google Sundar Pichai ha concordato con la valutazione di Mohan, affermando che se OpenAI avesse effettivamente addestrato Sora sui contenuti di YouTube, avrebbe violato i termini di servizio della piattaforma.

L'argomento trattato riguarda l'utilizzo non autorizzato di sottotitoli di video YouTube per l'addestramento di sistemi di intelligenza artificiale. Questo tema si inserisce nel più ampio contesto dello sviluppo dell'IA e solleva importanti questioni etiche e legali.

L'utilizzo di contenuti online per addestrare sistemi di IA non è una pratica nuova. Già negli anni '90, i primi sistemi di traduzione automatica venivano addestrati su corpora di testi paralleli, come i verbali del Parlamento Europeo tradotti in diverse lingue. Tuttavia, la scala e la pervasività di questa pratica sono cresciute esponenzialmente negli ultimi anni.

Una curiosità interessante riguarda il fatto che, ironicamente, molti video su YouTube trattano proprio il tema dell'intelligenza artificiale e dei suoi sviluppi. Questo crea una sorta di loop meta-informativo, in cui i contenuti utilizzati per addestrare l'IA parlano dell'IA stessa.

Dal punto di vista storico, è importante notare come l'evoluzione delle tecnologie di sottotitolazione automatica abbia giocato un ruolo cruciale in questa vicenda. YouTube ha introdotto i sottotitoli automatici nel 2009, utilizzando tecnologie di riconoscimento vocale per generare trascrizioni dei video. Questa funzionalità, inizialmente pensata per migliorare l'accessibilità dei contenuti, ha involontariamente creato un'enorme banca dati di testo associato a contenuti video.

La questione del copyright e della proprietà intellettuale in relazione all'uso di contenuti online per l'addestramento dell'IA è un tema di crescente importanza. Molti esperti legali ritengono che l'attuale quadro normativo non sia adeguato a gestire le sfide poste da queste nuove tecnologie.

Un aspetto particolarmente interessante di questa vicenda è il modo in cui mette in luce la tensione tra l'open source e la proprietà privata dei dati. Mentre molti sviluppatori di IA sostengono l'importanza di dataset aperti e accessibili per promuovere l'innovazione, i creatori di contenuti e le piattaforme come YouTube si trovano a dover proteggere i propri interessi e quelli dei loro utenti.

L'intelligenza artificiale è come un bambino: impara da ciò che vede e sente. Ma a differenza di un bambino, non ha un innato senso etico o legale su ciò che può o non può "imparare".

Questa situazione solleva anche interrogativi sul futuro della creatività umana in un mondo in cui l'IA può assimilare e riprodurre enormi quantità di contenuti. Ci si chiede se e come gli artisti, i creatori di contenuti e i giornalisti potranno continuare a produrre opere originali in un panorama così complesso e in rapida evoluzione.