AI etica creata senza rubare dati personali

L'industria dell'intelligenza artificiale si trova di fronte a una svolta che potrebbe rivoluzionare completamente il dibattito sui diritti d'autore e l'etica tecnologica. Quello che fino a ieri sembrava un ostacolo insormontabile secondo i colossi del settore - creare AI competitive senza violare copyright - è diventato realtà grazie al lavoro di un gruppo di ricercatori indipendenti. Il loro esperimento non solo dimostra la fattibilità di un approccio completamente legale, ma mette in discussione anni di giustificazioni da parte delle big tech.

La sfida che nessuno voleva raccogliere

Quando OpenAI dichiarò nel gennaio 2024 di fronte al Communications and Digital Committee britannico che sarebbe stato "impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti dal diritto d'autore", probabilmente non immaginava che qualcuno avrebbe raccolto la sfida così presto. L'azienda di Sam Altman aveva sostenuto che il copyright copre praticamente ogni forma di espressione umana, rendendo inevitabile l'uso di contenuti protetti.

Eppure, mentre le grandi corporazioni continuavano a difendere questa posizione nelle aule di tribunale - affrontando cause legali milionarie per presunto plagio - un collettivo di scienziati stava lavorando silenziosamente per dimostrare il contrario. Il team, composto da ricercatori di prestigiose università come MIT, Carnegie Mellon e Università di Toronto, insieme al gruppo indipendente EleutherAI, aveva un obiettivo ambizioso: creare un'intelligenza artificiale completamente etica.

Otto terabyte di contenuti puliti

Il cuore del progetto si chiama Common Pile v0.1, un dataset monumentale di otto terabyte composto esclusivamente da materiali di pubblico dominio o rilasciati con licenze aperte. La raccolta include documenti della Library of Congress, con ben 130.000 libri in lingua inglese, articoli accademici, enciclopedie libere, testi governativi, documenti tecnici e codice informatico.

Il processo di creazione ha richiesto mesi di lavoro certosino. Come spiega Stella Biderman, informatica e direttrice esecutiva di Eleuther AI e coautrice dello studio ancora in fase di revisione paritaria, gran parte della verifica è stata condotta manualmente: "Annotato manualmente alla fine della giornata". Ogni riga di testo è stata vagliata, filtrata, deduplicata e ripulita da contenuti inappropriati, poiché non esiste un sistema automatico in grado di garantire con certezza che un contenuto sia utilizzabile senza violare diritti.

"Annotato manualmente alla fine della giornata"

Prestazioni da primo della classe

I risultati hanno superato ogni aspettativa dei ricercatori stessi. Il modello addestrato su questo corpus completamente legale ha mostrato prestazioni paragonabili a quelle di AI celebri come LLaMA 2 di Meta, risultando ampiamente competitivo nei principali benchmark scientifici e linguistici utilizzati per valutare le intelligenze artificiali.

Questo successo smonta definitivamente l'argomento delle impossibilità tecniche tanto caro alle aziende del settore. Se un gruppo di ricercatori indipendenti, con risorse limitate rispetto ai budget miliardari delle big tech, è riuscito nell'impresa, viene naturale chiedersi perché i giganti tecnologici non abbiano mai tentato seriamente questa strada.

Una questione di priorità economiche

La risposta probabilmente non risiede nell'ambito tecnico, ma in quello economico e organizzativo. La composizione di un dataset etico richiede uno sforzo considerevole che, tradotto in termini aziendali, significa investimenti significativi in risorse umane e tempo. Per le corporation abituate a ottimizzare i tempi di sviluppo e massimizzare i profitti, la strada più veloce è sempre apparsa quella di attingere liberamente dai contenuti disponibili online, lasciando che fossero i tribunali a decidere sulla legittimità dell'operazione.

L'esperimento del team indipendente dimostra che costruire AI etiche non è la strada più rapida, ma è certamente quella che guarda più lontano. Gli autori della ricerca sperano che il loro lavoro possa contribuire virtuosamente al dibattito, aprendo una breccia in una narrazione che sembrava cristallizzata.

Il precedente creato da Common Pile v0.1 potrebbe rappresentare un punto di svolta per l'intera industria, costringendo le aziende a riconsiderare le proprie strategie di sviluppo e, soprattutto, le giustificazioni offerte finora ai regolatori e all'opinione pubblica.