Web saturo di AI: trovare dati reali sarà quasi impossibile

Il mercato dei dati "autentici" potrebbe trasformarsi in una delle commodity più preziose del prossimo decennio, secondo gli esperti che stanno monitorando un fenomeno inquietante: l'impigrimento digitale causato dall'intelligenza artificiale che si nutre sempre più spesso di contenuti generati da altre AI. Questo circolo vizioso sta creando una sorta di endogamia digitale che minaccia di impoverire drasticamente la qualità delle informazioni disponibili online. Una prospettiva che fa riflettere su quanto il nostro ecosistema informativo stia rapidamente cambiando volto, con conseguenze che potrebbero rivelarsi irreversibili per le generazioni future.

La spirale dell'auto-cannibalismo digitale

Gli studiosi dell'Università di Oxford hanno coniato un termine che suona quasi medico per descrivere questo fenomeno: "Data Autophagy Disorder", letteralmente il disturbo dell'autofagia dei dati. Come un serpente che si morde la coda, i modelli di intelligenza artificiale stanno progressivamente consumando e degradando la ricchezza informativa del web. Il processo inizia in modo sottile: spariscono prima le informazioni di nicchia, quelle rare e specialistiche, per poi estendersi gradualmente a contenuti sempre più comuni.

I ricercatori hanno documentato casi estremi in cui sistemi basati su architettura VAE, dopo essere stati addestrati su dati sintetici, hanno iniziato a produrre soltanto "macchie sfocate" invece di cifre leggibili. Un degrado che ricorda, per certi versi, il fenomeno delle fotocopie di fotocopie che perdevano progressivamente definizione prima dell'era digitale.

La "melma sintetica" invade il web

Secondo le stime più conservative, già oggi il 50% delle pagine web potrebbe essere costituito da contenuti generati artificialmente. L'Economic Times ha recentemente descritto questa ondata come una "marea di melma sintetica" che ha iniziato a diffondersi massicciamente dal 2022, coincidendo con la democratizzazione degli strumenti di AI generativa. Questa contaminazione sta creando quello che gli esperti definiscono "model collapse": quando un modello impara da contenuti prodotti da altri modelli, amplifica errori e bias in una spirale discendente che porta a output sempre più piatti e privi di significato.

I dataset umani potrebbero diventare beni preziosi come l'oro digitale

La linguista Emily Bender ha fornito una definizione che fa riflettere, descrivendo questi sistemi come "macchine di plagio statistico" incapaci di distinguere tra contenuti originali e rielaborazioni vuote. Questa incapacità di discernimento è alla base di quello che comunemente viene chiamato "allucinazioni" dell'AI: la tendenza a inventare fatti o confondere informazioni proprio a causa dell'impurità dei dati di training.

Il nuovo oro digitale

Gli analisti prevedono che entro il 2028 i dati umani "puri" – quelli non contaminati da generazioni artificiali – potrebbero raggiungere il punto di esaurimento. In questo scenario apocalittico, archivi storici, fotografie autentiche e scritti originali assumerebbero il valore di vere e proprie riserve strategiche. Come durante la corsa all'oro del XIX secolo, chi controlla queste risorse potrebbe trovarsi in una posizione di vantaggio competitivo decisivo.

Aziende come Anthropic stanno già investendo massicciamente nella ricerca di soluzioni per l'allineamento etico dei sistemi AI, concentrandosi sulla purezza dei dataset di training. La sfida tecnica è complessa: sviluppare sistemi di etichettatura affidabili e implementare tecniche di apprendimento federato che utilizzino esclusivamente database controllati e "puliti".

Il rischio del monopolio informativo

Il paradosso di questa evoluzione è che la necessità di preservare dati autentici potrebbe concentrare il controllo dell'informazione nelle mani di pochi grandi player tecnologici. Un monopolio informativo che ricorda, per certi aspetti, il controllo delle risorse naturali da parte delle multinazionali nel secolo scorso. La differenza sostanziale è che questa volta la posta in gioco non è solo economica, ma riguarda la stessa capacità della società di distinguere tra reale e artificiale, tra autentico e sintetico.

La preservazione del "reale" diventa così non solo una questione tecnica, ma una necessità sociale per garantire che le future generazioni di sistemi intelligenti possano ancora accedere alla ricchezza e alla diversità del pensiero umano originale.