L'AI di DeepSeek si crede ChatGPT: cosa succede

L'azienda cinese DeepSeek ha rilasciato questa settimana un nuovo modello di intelligenza artificiale chiamato DeepSeek V3, che supera molti concorrenti nei benchmark più diffusi. Tuttavia, il modello sembra identificarsi erroneamente come ChatGPT, il chatbot di OpenAI, creando confusione sulla sua reale identità.

DeepSeek V3 è un modello di grandi dimensioni ma efficiente, in grado di gestire compiti basati sul testo come la programmazione e la scrittura di saggi. Ciò che ha attirato l'attenzione è che, quando gli viene chiesto di identificarsi, il modello afferma ripetutamente di essere ChatGPT o una versione di GPT-4 di OpenAI rilasciata nel 2023. Questa confusione sull'identità solleva interrogativi sulla provenienza dei dati di addestramento e sulle pratiche di sviluppo dell'azienda.

Le possibili cause del problema

Gli esperti ipotizzano che DeepSeek V3 possa essere stato addestrato su dataset contenenti testi generati da GPT-4 tramite ChatGPT, portandolo a memorizzare e riprodurre alcune risposte del modello di OpenAI.

Mike Cook, ricercatore del King's College di Londra specializzato in IA, ha commentato: "Ovviamente il modello sta vedendo risposte grezze di ChatGPT in qualche punto, ma non è chiaro dove. Potrebbe essere 'accidentale', ma purtroppo abbiamo visto casi di persone che addestrano direttamente i loro modelli sugli output di altri modelli per cercare di sfruttarne la conoscenza".

Questa pratica di addestramento su output di sistemi rivali può portare ad allucinazioni e risposte fuorvianti, compromettendo la qualità del modello. Inoltre, potrebbe violare i termini di servizio di OpenAI, che vietano l'uso dei suoi output per sviluppare modelli concorrenti.

Il web sta diventando saturo di contenuti generati dall'IA.

Un problema diffuso

DeepSeek V3 non è il primo modello a identificarsi erroneamente. Anche Google Gemini e altri sistemi a volte affermano di essere modelli concorrenti quando sollecitati in determinate lingue.

Ciò è dovuto al fatto che il web, principale fonte di dati di addestramento per le aziende di IA, sta diventando sempre più saturo di contenuti generati artificialmente. Secondo alcune stime, entro il 2026 il 90% del web potrebbe essere prodotto dall'IA.

Questa "contaminazione" rende molto difficile filtrare completamente gli output dell'IA dai dataset di addestramento. È possibile che DeepSeek abbia addestrato deliberatamente il suo modello su testi di ChatGPT, ma è più probabile che una grande quantità di dati generati da GPT-4 sia finita nel set di addestramento di DeepSeek V3.

Le implicazioni

La confusione sull'identità di DeepSeek V3 solleva preoccupazioni più ampie. Heidy Khlaaf, chief AI scientist del AI Now Institute, ha spiegato: "Se DeepSeek ha effettivamente effettuato una distillazione parziale utilizzando i modelli OpenAI, non sarebbe sorprendente. Il risparmio sui costi derivante dalla 'distillazione' delle conoscenze di un modello esistente può essere attraente per gli sviluppatori, indipendentemente dai rischi".

Oltre a non poter essere considerato affidabile nell'auto-identificazione, DeepSeek V3 potrebbe aver assorbito e amplificato alcuni dei pregiudizi e dei difetti di GPT-4, compromettendo potenzialmente la sua accuratezza e affidabilità.

Questo caso evidenzia le sfide etiche e tecniche nello sviluppo di modelli di IA avanzati, sottolineando la necessità di maggiore trasparenza e controllo sulle pratiche di addestramento e sull'origine dei dati utilizzati.