Reddit blocca motori di ricerca e IA, ma non tutti

Reddit sta intensificando la sua lotta contro i web crawler. Nelle ultime settimane, il popolare sito di social news ha iniziato a bloccare i motori di ricerca dall'indicizzare post e commenti recenti, a meno che non paghino, secondo quanto riportato da 404 Media.

Attualmente, Google è l'unico motore di ricerca mainstream che mostra risultati recenti quando si cercano post su Reddit utilizzando il trucco "site:reddit.com". Questo esclude Bing, DuckDuckGo e altre alternative, probabilmente perché Google ha stretto un accordo da 60 milioni di dollari che gli permette di addestrare i suoi modelli di IA sui contenuti di Reddit.

Un portavoce di Reddit, Tim Rathschmidt, ha dichiarato: "Questo non è affatto legato alla nostra recente partnership con Google. Siamo in trattative con diversi motori di ricerca. Non siamo riusciti a raggiungere accordi con tutti loro, poiché alcuni non sono in grado o non vogliono fare promesse applicabili riguardo al loro utilizzo dei contenuti di Reddit, incluso l'uso per l'IA."

Una mossa audace ma non sorprendente

È una mossa audace per un sito web enorme come Reddit bloccare alcuni dei motori di ricerca più popolari, ma non è del tutto sorprendente. Nell'ultimo anno, Reddit è diventato più protettivo dei suoi dati mentre cerca di aprire una nuova fonte di entrate e accontentare i nuovi investitori.

Dopo aver reso la sua API più costosa per alcuni sviluppatori di terze parti, Reddit avrebbe minacciato di tagliare i ponti con Google se non avesse smesso di utilizzare gratuitamente i dati della piattaforma per addestrare l'IA.

Trovare contenuti scritti da esseri umani è diventato più importante che mai.

Per far rispettare la sua politica contro lo scraping, Reddit ha aggiornato il file robots.txt del sito, che indica ai web crawler se possono accedere a un sito. Ben Lee, responsabile legale di Reddit, ha spiegato: "È un segnale per coloro che non hanno un accordo con noi che non dovrebbero accedere ai dati di Reddit".

L'importanza dei contenuti umani nell'era dell'IA

Con i chatbot IA che riempiono internet di contenuti discutibili, trovare cose scritte da esseri umani è diventato più importante che mai. Molti utenti hanno iniziato ad aggiungere "Reddit" alle loro ricerche per ottenere risposte umane.

Questa limitazione nell'accesso ai contenuti di Reddit attraverso i motori di ricerca potrebbe frustrare gli utenti abituati a cercare informazioni sulla piattaforma. La situazione evidenzia le crescenti tensioni tra le piattaforme di contenuti, i motori di ricerca e le aziende che sviluppano tecnologie di IA, in un panorama digitale in rapida evoluzione.

La storia dei web crawler risale agli albori di Internet. Il primo motore di ricerca, Archie, fu creato nel 1990 da Alan Emtage, uno studente dell'Università McGill. Archie era in grado di indicizzare i file su server FTP, ma non aveva ancora la capacità di "strisciare" attraverso i collegamenti ipertestuali come i moderni crawler.

Il vero precursore dei crawler moderni fu il World Wide Web Wanderer, sviluppato nel 1993 da Matthew Gray al MIT. Questo bot era in grado di navigare autonomamente tra le pagine web, seguendo i link e raccogliendo informazioni. Tuttavia, la sua attività generava un traffico significativo, tanto che alcuni amministratori di siti web lo consideravano un fastidio.

L'evoluzione dei web crawler ha portato alla nascita di giganti come Google, che ha rivoluzionato il modo in cui cerchiamo informazioni online. Il famoso algoritmo PageRank di Google, sviluppato da Larry Page e Sergey Brin, ha introdotto un metodo innovativo per valutare l'importanza delle pagine web basandosi sulla struttura dei link.

Una curiosità interessante riguarda il nome "crawler". In inglese, il termine significa letteralmente "strisciare" o "muoversi lentamente", ed è stato scelto perché questi programmi "strisciano" attraverso il web, seguendo link e raccogliendo dati. Altri nomi comuni per questi programmi includono "spider" o "bot".

I web crawler sono come esploratori digitali, che mappano costantemente il vasto territorio di Internet.

Nel corso degli anni, i crawler sono diventati sempre più sofisticati. Oggi, sono in grado di interpretare il contenuto delle pagine, riconoscere immagini e video, e persino comprendere il contesto semantico dei testi. Questa evoluzione ha sollevato importanti questioni etiche e legali riguardo alla privacy e ai diritti d'autore.

Un aspetto curioso è che molti siti web utilizzano file chiamati "robots.txt" per comunicare con i crawler. Questi file contengono istruzioni su quali parti del sito possono essere esplorate e quali no. È una sorta di "galateo digitale" che i crawler rispettosi dovrebbero seguire.

La decisione di Reddit di limitare l'accesso ai crawler non paganti si inserisce in un contesto più ampio di dibattito sul valore dei dati nell'era dell'intelligenza artificiale. Con l'aumento dell'importanza del machine learning e dell'IA, i dati di alta qualità sono diventati una risorsa preziosa, portando molte piattaforme a riconsiderare le loro politiche di accesso.

Questa mossa potrebbe avere ripercussioni significative sul modo in cui gli utenti accedono alle informazioni online e potrebbe spingere altre piattaforme a seguire l'esempio di Reddit. Il futuro dell'indicizzazione web e della ricerca online potrebbe essere sul punto di cambiare drasticamente.

Reddit blocca motori di ricerca e IA, ma non tutti

> Ci scusiamo con gli utenti di Bing. Questo contenuto non è al momento disponibile. Stiamo lavorando per risolvere il problema il prima possibile.

Una mossa audace ma non sorprendente

L'importanza dei contenuti umani nell'era dell'IA