Secondo la denuncia, Anthropic avrebbe utilizzato un vasto dataset open-source chiamato "The Pile" per addestrare la sua famiglia di chatbot AI Claude. All'interno di questo dataset si trova "Books3", una massiccia biblioteca di ebook piratati che include opere di Stephen King, Michael Pollan e migliaia di altri autori. L'azienda ha recentemente confermato a Vox di aver impiegato The Pile per l'addestramento di Claude.
Gli autori che hanno intentato la causa includono Andrea Bartz, autrice di "We Were Never Here", Charles Graeber, autore di "The Good Nurse", e Kirk Wallace Johnson, autore di "The Feather Thief". Chiedono al tribunale di certificare la loro class action e di obbligare Anthropic a pagare i danni proposti, oltre a impedire all'azienda di utilizzare materiale protetto da copyright in futuro.
Implicazioni legali e precedenti
Questa causa si inserisce in un contesto più ampio di controversie legali riguardanti l'uso di contenuti protetti da copyright per l'addestramento di modelli AI. Lo scorso anno, l'ex governatore dell'Arkansas Mike Huckabee e altri autori hanno intentato una causa simile contro Meta, Microsoft ed EleutherAI, l'organizzazione no-profit dietro The Pile.
Inoltre, autori di fama mondiale come George R.R. Martin, Jodi Picoult e Michael Chabon hanno citato in giudizio OpenAI per il presunto utilizzo dei loro contenuti protetti da copyright. Una recente indagine ha anche rivelato che aziende come Anthropic e Apple hanno addestrato i loro modelli AI utilizzando migliaia di sottotitoli di video YouTube presenti in The Pile.
La causa solleva importanti questioni etiche e legali sull'utilizzo di contenuti protetti da copyright nell'addestramento di modelli di intelligenza artificiale, mettendo in luce la necessità di una regolamentazione più chiara in questo settore in rapida evoluzione.