L'IA di Anthropic aggira le restrizioni sul web

Il web crawler ClaudeBot di Anthropic, utilizzato per raccogliere dati di addestramento per modelli di intelligenza artificiale come Claude, ha effettuato quasi un milione di richieste al sito web di iFixit in sole 24 ore, apparentemente violando i Termini d'Uso dell'azienda specializzata in riparazioni.

Kyle Wiens, CEO di iFixit, ha commentato su X: "Se qualcuna di quelle richieste avesse acceduto ai nostri termini di servizio, avrebbe scoperto che l'uso dei nostri contenuti è espressamente vietato. Ma non chiedetelo a me, chiedetelo a Claude!" Wiens ha anche pubblicato immagini che mostrano il chatbot di Anthropic che riconosce come i contenuti di iFixit siano off-limits.

"Non solo state prendendo i nostri contenuti senza pagare, ma state anche impegnando le nostre risorse DevOps. Se volete avere una conversazione sulla concessione in licenza dei nostri contenuti per uso commerciale, siamo qui", ha aggiunto Wiens.

In un'intervista a The Verge, Wiens ha spiegato: "Il tasso di crawling era così alto da far scattare tutti i nostri allarmi e mobilitare il nostro team DevOps. iFixit riceve molto traffico. Essendo uno dei siti più importanti di internet, abbiamo familiarità con web crawler e bot. Di solito possiamo gestire quel carico senza problemi, ma questa volta si è trattato di un'anomalia."

I Termini d'Uso di iFixit e la risposta di Anthropic

I Termini d'Uso di iFixit stabiliscono chiaramente che "riprodurre, copiare o distribuire" qualsiasi contenuto dal sito web è "severamente proibito senza l'espresso permesso scritto" dell'azienda, con specifico riferimento all'"addestramento di un modello di machine learning o AI".

Quando Anthropic è stata interrogata su questo da 404 Media, l'azienda di AI ha rimandato a una pagina FAQ che afferma che il suo crawler può essere bloccato solo tramite un file robots.txt.

iFixit non sembra essere l'unico caso.

Wiens ha dichiarato che iFixit ha successivamente aggiunto l'estensione crawl-delay al suo robots.txt. "In base ai nostri log, hanno effettivamente smesso dopo che l'abbiamo aggiunto al robots.txt", ha confermato Wiens. Jennifer Martinez, portavoce di Anthropic, ha dichiarato a The Verge: "Rispettiamo il robots.txt e il nostro crawler ha rispettato quel segnale quando iFixit lo ha implementato".

Un problema più ampio

Il co-fondatore di Read the Docs Eric Holscher e il CEO di Freelancer.com Matt Barrie hanno affermato che anche i loro siti sono stati oggetto di scraping aggressivo da parte del crawler di Anthropic. Questa non sembra essere una novità per ClaudeBot, con diversi thread su Reddit di alcuni mesi fa che riportavano un drammatico aumento dello scraping web da parte di Anthropic.

Nell'aprile di quest'anno, il forum web di Linux Mint ha attribuito un'interruzione del sito allo stress causato dalle attività di scraping di ClaudeBot.

Il blocco dei crawler tramite file robots.txt è anche il metodo di opt-out preferito da molte altre aziende di AI come OpenAI, ma non offre ai proprietari dei siti web alcuna flessibilità per specificare quali attività di scraping sono permesse e quali no. Un'altra azienda di AI, Perplexity, è nota per ignorare completamente le esclusioni robots.txt.

Nonostante ciò, il robots.txt rimane una delle poche opzioni disponibili per le aziende per tenere i propri dati fuori dai materiali di addestramento dell'AI, come ha fatto Reddit nella sua recente stretta sui web crawler.

Il web crawling e lo scraping dei dati sono pratiche che hanno una lunga storia nell'evoluzione di Internet. Questi metodi di raccolta automatizzata delle informazioni risalgono agli albori del World Wide Web negli anni '90, quando i primi motori di ricerca iniziarono a indicizzare sistematicamente i contenuti online.

Tuttavia, con l'avvento dell'intelligenza artificiale e dei grandi modelli linguistici, il web crawling ha assunto una nuova dimensione e importanza. Questi sistemi AI necessitano di enormi quantità di dati per il loro addestramento, portando a un'intensificazione senza precedenti delle attività di scraping.

Un aspetto curioso è che molte delle aziende che oggi conducono attività aggressive di web crawling, come Anthropic, sono nate in un'epoca in cui i dibattiti etici sull'uso dei dati online erano già maturi. Ciononostante, sembrano ripetere gli stessi errori e controversie che caratterizzarono i primi anni di Google e altri motori di ricerca.

Il caso di iFixit solleva importanti questioni sul diritto alla proprietà intellettuale nell'era digitale. È interessante notare come il sito, nato con l'obiettivo di rendere accessibili le informazioni sulla riparazione dei dispositivi, si trovi ora a dover proteggere i propri contenuti da un'eccessiva "accessibilità" da parte delle AI.

La conoscenza vuole essere libera, ma i creatori di contenuti vogliono essere pagati

Questa tensione tra la libera circolazione delle informazioni e la tutela dei diritti d'autore non è nuova, ma assume contorni inediti nell'era dell'intelligenza artificiale. Il dibattito ricorda per certi versi le prime battaglie legali sui motori di ricerca e l'indicizzazione dei contenuti web, con la differenza che oggi le implicazioni sono potenzialmente molto più vaste.

Un elemento di particolare interesse storico è l'evoluzione del file robots.txt. Nato come una semplice convenzione tra webmaster nei primi anni '90, è diventato oggi uno strumento cruciale nella gestione dei rapporti tra siti web e crawler AI. La sua inadeguatezza di fronte alle nuove sfide poste dall'intelligenza artificiale evidenzia la necessità di nuovi standard e protocolli per regolare queste interazioni.

Infine, è curioso osservare come l'industria tech si trovi ciclicamente a fronteggiare dilemmi etici simili. Dalla privacy dei dati degli utenti alle questioni di copyright, passando per l'equità dell'accesso alle informazioni, la storia sembra ripetersi con nuovi attori ma vecchie problematiche. Questo sottolinea l'importanza di un approccio consapevole e responsabile allo sviluppo tecnologico, che tenga conto delle lezioni del passato.

L'IA di Anthropic aggira le restrizioni sul web

> IA di OpenAI causa problemi alle risorse DevOps di iFixit, afferma il CEO dell'azienda di riparazioni tech

I Termini d'Uso di iFixit e la risposta di Anthropic

Un problema più ampio