Tra i big che hanno optato per l'esclusione figurano Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media e USA Today. Anche Condé Nast, proprietaria di Wired, ha scelto questa strada. Apple consente agli editori web di decidere se autorizzare o meno l'utilizzo dei propri contenuti per l'addestramento dei modelli AI dell'azienda.
Un'analisi separata ha rilevato che oltre un quarto dei siti di notizie esaminati (294 su 1.167 pubblicazioni principalmente in lingua inglese con sede negli USA) sta bloccando Applebot-Extended, il crawler utilizzato da Apple per raccogliere dati dal web.
Accordi di licenza con OpenAI
Curiosamente, alcune delle testate che hanno escluso i propri contenuti dall'addestramento di Apple Intelligence hanno invece siglato accordi di licenza con OpenAI, la società creatrice di ChatGPT. Tra queste figurano The Financial Times, The Atlantic e Vox Media. Questi accordi consentono a OpenAI di utilizzare i contenuti per addestrare i propri modelli AI e includerli in ChatGPT.
In controtendenza, The New York Times ha intrapreso un'azione legale contro OpenAI e Microsoft per presunte violazioni del copyright.
La raccolta dati di Apple
Apple ha chiarito che i modelli AI di Apple Intelligence vengono addestrati su una combinazione di dati concessi in licenza, dataset pubblici curati e informazioni pubblicamente disponibili raccolte dal web crawler Applebot. L'azienda afferma di rispettare il diritto degli editori di non essere indicizzati, utilizzando le direttive standard robots.txt.
Inoltre, Apple sostiene di non utilizzare mai i dati privati o le interazioni degli utenti per addestrare i propri modelli AI. L'azienda applica anche filtri per rimuovere informazioni personali identificabili, linguaggio inappropriato e contenuti di bassa qualità dal corpus di addestramento.