Claude addestrato con milioni di libri per l'IA

La tecnologia dell'intelligenza artificiale sta ridefinendo il concetto stesso di patrimonio culturale, e la vicenda di Anthropic ne rappresenta un esempio emblematico. L'azienda californiana, creatrice del modello linguistico Claude, ha recentemente ottenuto l'approvazione legale per una pratica che fino a pochi anni fa sarebbe sembrata impensabile: l'acquisto di milioni di libri con l'unico scopo di digitalizzarli e poi distruggerli fisicamente. La decisione del giudice federale William Alsup, emessa nel giugno 2025, ha stabilito un precedente che potrebbe cambiare per sempre il modo in cui le aziende tecnologiche accedono ai contenuti protetti da copyright.

Il verdetto che cambia le regole del gioco

La sentenza del tribunale federale stabilisce parametri precisi per questa nuova forma di fair use: i libri devono essere acquistati legalmente, le copie fisiche eliminate dopo la scansione, e i file digitali utilizzati esclusivamente per l'addestramento interno dei sistemi di intelligenza artificiale. Questa decisione giuridica apre scenari inediti per un settore sempre più affamato di dati di qualità, dove i contenuti web spesso non garantiscono la coerenza narrativa e la profondità argomentativa necessarie per addestrare modelli linguistici sofisticati.

I documenti presentati in tribunale rivelano investimenti considerevoli da parte di Anthropic, che ha organizzato veri e propri convogli di camion per trasportare i volumi verso depositi specializzati nei sobborghi di San Francisco. Qui, intere collezioni sono state trasformate in flussi di dati digitali prima di finire al macero, in un processo che ricorda più una catena di montaggio industriale che un'operazione culturale.

L'evoluzione dal progetto Google Books

La strategia di Anthropic segna una rottura netta con l'approccio pioneristico di Google Books negli anni Duemila. Allora, l'obiettivo era creare un archivio digitale pubblico: i volumi venivano scannerizzati senza danneggiarli e restituiti alle biblioteche partner, in una logica di condivisione del sapere. Il nuovo modello, invece, è puramente estrattivo: nessun accesso pubblico, nessuna conservazione, solo dati per alimentare algoritmi proprietari.

Il libro da oggetto culturale diventa carburante per algoritmi

La figura di Tom Turvey incarna perfettamente questa transizione. Il dirigente, passato da Google Books ad Anthropic, ha portato con sé un'esperienza preziosa ma applicandola a obiettivi completamente diversi. Se a Google collaborava con università e biblioteche per garantire preservazione e accessibilità, oggi privilegia efficienza e velocità, relegando la tutela del supporto cartaceo a questione secondaria.

Il dilemma delle aziende concorrenti

Mentre Anthropic ha scelto la strada della distruzione controllata, altre major del settore mantengono approcci più tradizionali. OpenAI e Microsoft continuano a preferire accordi con partner istituzionali e tecniche di digitalizzazione non distruttive, nonostante i costi elevati e i tempi lunghi di negoziazione. La differenza di strategia riflette visioni diverse sul rapporto tra innovazione tecnologica e responsabilità culturale.

Dopo aver abbandonato un primo tentativo di utilizzare copie pirata per motivi legali evidenti, Anthropic ha optato per quella che considera la soluzione più pragmatica: comprare, digitalizzare, distruggere. Il processo non richiede particolari vincoli sulla rarità dei volumi, concentrandosi invece su quantità e varietà di contenuti per arricchire il dataset di addestramento.

Le implicazioni a lungo termine

Il precedente legale stabilito dal giudice Alsup potrebbe incoraggiare altre aziende tecnologiche a seguire l'esempio di Anthropic, soprattutto in un mercato dove l'accesso a contenuti di qualità rappresenta un vantaggio competitivo decisivo. La normalizzazione della distruzione come strumento di accesso ai dati solleva però interrogativi profondi sul valore che attribuiamo al patrimonio scritto nella sua forma fisica.

Claude figura oggi tra i modelli linguistici più avanzati, capace di produrre risposte articolate e coerenti proprio grazie alla qualità dei dati su cui è stato addestrato. Tuttavia, questa competenza poggia letteralmente sulle ceneri di milioni di volumi, trasformando il concetto stesso di biblioteca da spazio di conservazione a miniera di dati. La questione centrale non è più se sia lecito distruggere libri per scopi tecnologici, ma se questa prassi stia ridefinendo irreversibilmente il nostro rapporto con la conoscenza scritta.