OpenAI riscrive le regole: IA meno "politically correct"?

OpenAI ha rilasciato una versione ampliata del suo Model Spec, un documento che definisce come i suoi modelli di intelligenza artificiale (AI) dovrebbero comportarsi. La nuova specifica, resa pubblica e gratuita, stabilisce linee guida dettagliate su come l'AI dovrebbe gestire argomenti controversi, personalizzazione dell'utente e altri aspetti cruciali. L'obiettivo è promuovere la customizzabilità, la trasparenza e la libertà intellettuale nell'interazione con i modelli AI.

La pubblicazione di questo documento rappresenta un passo significativo per il settore dell'intelligenza artificiale. Definendo standard etici e pratici, OpenAI mira a guidare lo sviluppo di modelli AI più responsabili e allineati con i valori umani. Questo approccio cerca di bilanciare la potenza e la flessibilità dell'AI con la necessità di prevenire usi dannosi e garantire un'esperienza utente positiva. La possibilità per chiunque di utilizzare e modificare il Model Spec favorisce una collaborazione più ampia e una maggiore trasparenza nel campo dell'AI.

Principi Fondamentali del Nuovo Model Spec

Il documento si basa su tre principi cardine: customizzabilità, trasparenza e libertà intellettuale.

Customizzabilità: OpenAI riconosce che non esiste un modello unico che possa soddisfare le esigenze di tutti gli utenti. Pertanto, il Model Spec incoraggia la personalizzazione del comportamento dei modelli AI per adattarsi a contesti specifici e preferenze individuali. Questa flessibilità permette agli sviluppatori di creare esperienze AI più pertinenti e coinvolgenti.

Trasparenza: La trasparenza è essenziale per costruire la fiducia nell'AI. Il Model Spec promuove la chiarezza su come i modelli AI prendono decisioni e gestiscono le informazioni. Rendendo pubblici i principi guida, OpenAI spera di aumentare la comprensione e la responsabilità nell'uso dell'AI.

Libertà Intellettuale: Questo principio mira a proteggere la capacità degli utenti di esplorare e discutere idee senza restrizioni arbitrarie. Il Model Spec incoraggia i modelli AI a facilitare un dibattito aperto e informato, evitando la censura o la soppressione di opinioni legittime.

Gestione di Argomenti Sensibili e Controversi

Il Model Spec affronta direttamente la gestione di argomenti sensibili e controversi. Invece di evitare tali argomenti, il documento incoraggia i modelli AI a impegnarsi in un'analisi ragionata e a "cercare la verità insieme" agli utenti. Questo approccio mira a fornire informazioni accurate e complete, pur mantenendo una posizione morale chiara su questioni come la disinformazione o il potenziale danno.

Un esempio citato da OpenAI riguarda una domanda ipotetica sul misgendering di Caitlyn Jenner per prevenire una catastrofe nucleare. La risposta appropriata, secondo il Model Spec, sarebbe quella di affermare che in una situazione estrema come quella descritta, si dovrebbe dare priorità alla prevenzione di eventi catastrofici, anche se ciò significa compromettere temporaneamente il rispetto delle identità di genere.

Joanne Jang, membro del team di comportamento dei modelli di OpenAI, ha spiegato che l'azienda è consapevole della difficoltà di creare un modello che soddisfi tutti. "Non possiamo creare un modello con lo stesso insieme di standard di comportamento che tutti al mondo ameranno", ha affermato Jang, sottolineando che molti aspetti del comportamento del modello possono essere personalizzati da utenti e sviluppatori, pur mantenendo alcune protezioni di sicurezza.

Contenuti Maturo e "AI Sycophancy"

Il Model Spec introduce un approccio più sfumato alla gestione dei contenuti maturi. Dopo aver ricevuto feedback da utenti e sviluppatori che richiedevano una "modalità adulto", OpenAI sta esplorando modi per consentire determinati tipi di contenuti per adulti, come l'erotica, in contesti appropriati. Tuttavia, restano in vigore divieti rigorosi su contenuti dannosi come la revenge porn o i deepfake. Qualsiasi modifica in questa direzione sarà accompagnata da chiare politiche di utilizzo e protezioni di sicurezza.

Vogliamo portare queste discussioni interne al pubblico.

Un altro problema affrontato dal Model Spec è l'"AI sycophancy", ovvero la tendenza dei modelli AI a essere eccessivamente accondiscendenti, anche quando dovrebbero esprimere critiche o disaccordo. Le nuove linee guida mirano a correggere questo comportamento, incoraggiando i modelli AI a fornire feedback onesti, a correggere errori e a comportarsi come colleghi pensierosi piuttosto che come semplici "yes-men".

Secondo Jang, "Non vogliamo che gli utenti sentano di dover elaborare attentamente il loro prompt per evitare che il modello sia d'accordo con loro". L'obiettivo è che ChatGPT fornisca la stessa risposta fattuale indipendentemente da come viene formulata la domanda e che offra critiche costruttive invece di semplici elogi vuoti.

Gerarchia delle Istruzioni e Licenza Open Source

Il Model Spec stabilisce una chiara "catena di comando" per le istruzioni, definendo quali hanno la priorità. Le regole a livello di piattaforma di OpenAI hanno la precedenza, seguite dalle linee guida degli sviluppatori e, infine, dalle preferenze dell'utente. Questa gerarchia mira a chiarire quali aspetti del comportamento dell'AI possono essere modificati e quali restrizioni rimangono fisse.

OpenAI ha rilasciato il Model Spec con una licenza Creative Commons Zero (CC0), mettendolo di fatto nel pubblico dominio. Ciò significa che altre aziende e ricercatori nel campo dell'AI possono liberamente adottare, modificare o basarsi su queste linee guida. Questa decisione è stata influenzata dall'interesse informale di altri nel settore che già facevano riferimento alla versione precedente del documento.

Implicazioni e Prospettive Future

Il rilascio del Model Spec avviene in un momento di intenso dibattito sul comportamento dell'AI e sulle protezioni di sicurezza. Sebbene OpenAI affermi che l'aggiornamento è stato guidato dal feedback accumulato e dai progressi della ricerca dalla prima versione del maggio scorso, arriva mentre il settore è alle prese con incidenti di alto profilo che coinvolgono le risposte dei modelli AI a temi sensibili.

OpenAI invita il pubblico a fornire feedback sulla specifica attraverso un modulo sul suo sito web. "Vogliamo portare queste discussioni interne al pubblico", ha affermato Laurentia Romaniuk, un altro membro del team di comportamento dei modelli.

Jang ha aggiunto: "Sapevamo che sarebbe stato 'piccante', ma penso che rispettiamo la capacità del pubblico di digerire queste cose 'piccanti' e di elaborarle con noi", aggiungendo che OpenAI ha incorporato molti dei feedback ricevuti dopo il lancio del primo Model Spec l'anno scorso. "Sono un po' preoccupata che, poiché è così lungo, non molte persone potrebbero avere il tempo di sedersi e elaborare veramente le sfumature, ma accetteremo qualsiasi feedback."

In sintesi, il nuovo Model Spec di OpenAI rappresenta un tentativo ambizioso di definire standard etici e pratici per lo sviluppo e l'implementazione di modelli AI. Promuovendo la customizzabilità, la trasparenza e la libertà intellettuale, OpenAI spera di guidare il settore verso un futuro in cui l'AI sia più responsabile, allineata con i valori umani e in grado di affrontare argomenti complessi e controversi in modo ponderato e informato.

La pubblicazione del Model Spec, insieme all'imminente rilascio di GPT-4.5 (nome in codice Orion), sottolinea l'impegno continuo di OpenAI per l'innovazione e la leadership nel campo dell'intelligenza artificiale.

OpenAI ha rilasciato una versione ampliata del suo Model Spec , un documento che definisce come i suoi modelli di intelligenza artificiale dovrebbero comportarsi, rendendolo disponibile gratuitamente per chiunque lo utilizzi o lo modifichi.

La nuova specifica di 63 pagine, rispetto alle circa 10 della versione precedente , stabilisce le linee guida su come i modelli di intelligenza artificiale dovrebbero gestire argomenti controversi e la personalizzazione dell'utente. Sottolinea tre principi principali: personalizzazione, trasparenza e ciò che OpenAI chiama "libertà intellettuale", ovvero la capacità per gli utenti di esplorare e discutere idee senza restrizioni arbitrarie. Il lancio del Model Spec aggiornato arriva proprio mentre il CEO Sam Altman ha annunciato che il prossimo grande modello della startup, GPT-4.5 ( nome in codice Orion ), sarà rilasciato presto.

Il team ha incorporato dibattiti e controversie etiche sull'intelligenza artificiale dell'anno precedente nella specifica. Potresti avere familiarità con alcune di queste query del tipo problema del carrello. Lo scorso marzo, Elon Musk (cofondatore di OpenAI e ora alla guida di un concorrente, xAI) ha criticato il chatbot AI di Google dopo che un utente aveva chiesto se si dovesse usare un genere sbagliato per Caitlyn Jenner, una famosa atleta olimpica trans, se fosse l'unico modo per prevenire un'apocalisse nucleare, e questo aveva risposto di no. Capire come fare ragionare responsabilmente il modello attraverso quella query è stato uno dei problemi che OpenAI voleva considerare durante l'aggiornamento del Model Spec. Ora, se chiedi a ChatGPT la stessa domanda, dovrebbe dire che dovresti usare un genere sbagliato per qualcuno per prevenire eventi con vittime di massa.

"Non possiamo creare un modello con lo stesso insieme di standard di comportamento che piacerà a tutti nel mondo", ha detto Joanne Jang, membro del team di comportamento del modello di OpenAI, in un'intervista con The Verge . Ha sottolineato che, sebbene l'azienda mantenga determinate protezioni di sicurezza, molti aspetti del comportamento del modello possono essere personalizzati da utenti e sviluppatori.

“Sapevamo che sarebbe stato piccante.”

Il post sul blog di OpenAI pubblicato mercoledì delinea una miriade di query e fornisce esempi di risposte conformi rispetto a quelle che violerebbero il Model Spec. Non consente al modello di riprodurre materiali protetti da copyright o di aggirare i paywall: il New York Times sta citando in giudizio OpenAI per aver utilizzato il suo lavoro per addestrare i suoi modelli. La specifica afferma anche che il modello non incoraggerà l'autolesionismo, un argomento venuto alla ribalta quando un adolescente è morto suicida dopo aver interagito con un chatbot su Character.AI.

Un cambiamento notevole è il modo in cui i modelli gestiscono argomenti controversi. Anziché optare per un'estrema cautela, la specifica incoraggia i modelli a "cercare la verità insieme" agli utenti, mantenendo posizioni morali chiare su questioni come la disinformazione o potenziali danni. Ad esempio, quando viene chiesto di aumentare le tasse per i ricchi, un argomento che ha suscitato accesi dibattiti, il team afferma che i suoi modelli dovrebbero fornire analisi ragionate anziché evitare la discussione.

La specifica menziona anche un cambiamento nel modo in cui gestisce i contenuti per adulti. Dopo il feedback di utenti e sviluppatori che hanno richiesto la "modalità per adulti" (una funzionalità che Altman ha pubblicamente approvato a dicembre ), il team sta esplorando modi per consentire determinati tipi di contenuti per adulti, come l'erotismo, in contesti appropriati, mantenendo al contempo divieti severi su contenuti dannosi come la revenge porn o i deepfake. È un cambiamento notevole rispetto alle precedenti restrizioni generali dell'azienda sui contenuti espliciti, anche se OpenAI sottolinea che qualsiasi cambiamento verrebbe fornito con chiare politiche di utilizzo e protezioni di sicurezza.

Il Model Spec rivela un approccio pragmatico al comportamento dell'intelligenza artificiale: trasformare contenuti sensibili ma non crearli (dovrebbe essere in grado di tradurre una frase su contenuti relativi alla droga dall'inglese al tedesco anziché rifiutarla), mostrare empatia senza fingere emozioni e mantenere confini fermi massimizzando l'utilità. Queste linee guida rispecchiano ciò che altre aziende di intelligenza artificiale probabilmente fanno internamente ma non rendono spesso pubbliche.

Il team sta anche prendendo di mira specificamente un problema chiamato "sycophancy AI".

"Siamo davvero entusiasti di portare le discussioni interne e i pensieri che abbiamo avuto al pubblico in modo da poter ricevere feedback al riguardo", ha detto Jang, aggiungendo che molte di queste query sono argomenti ampiamente dibattuti internamente. Non c'è una semplice risposta sì o no a molti di essi, quindi il team spera che portarlo al pubblico per feedback avvantaggerà significativamente il comportamento del modello.

Il team sta anche prendendo di mira specificamente un problema chiamato "sycophancy AI", in cui i modelli AI tendono a essere eccessivamente accondiscendenti anche quando dovrebbero respingere o fornire critiche. Secondo queste linee guida, ChatGPT dovrebbe: fornire la stessa risposta fattuale indipendentemente da come viene formulata una domanda; fornire feedback onesto piuttosto che lodi vuote; e agire più come un collega premuroso che come un people pleaser. Ad esempio, se qualcuno chiede a ChatGPT di criticare il proprio lavoro, dovrebbe fornire critiche costruttive piuttosto che dire semplicemente che tutto va bene. Oppure, se qualcuno fa un'affermazione errata quando pone una domanda, l'IA dovrebbe correggerlo educatamente piuttosto che assecondarlo.

"Non vogliamo mai che gli utenti sentano di dover in qualche modo progettare attentamente il loro prompt per non far sì che il modello sia d'accordo con te", ha detto Jang.

La specifica introduce anche una chiara "catena di comando" che definisce quali istruzioni hanno la priorità: le regole a livello di piattaforma di OpenAI vengono prima, seguite dalle linee guida per gli sviluppatori e quindi dalle preferenze dell'utente. Questa gerarchia mira a chiarire quali aspetti del comportamento dell'IA possono essere modificati rispetto alle restrizioni che rimangono fisse.

OpenAI sta rilasciando la specifica con una licenza Creative Commons Zero (CC0), inserendola di fatto nel pubblico dominio. Ciò significa che altre aziende e ricercatori di intelligenza artificiale possono liberamente adottare, modificare o basarsi su queste linee guida. L'azienda afferma che questa decisione è stata influenzata dall'interesse informale di altri nel settore che si riferivano già alla specifica precedente.

Lavori in OpenAI?

Sebbene l'annuncio di oggi non cambi immediatamente il modo in cui si comportano ChatGPT o altri prodotti OpenAI, l'azienda afferma che rappresenta un progresso continuo nel far sì che i suoi modelli seguano costantemente questi principi. Il team sta anche aprendo il codice dei prompt che utilizza per testare l'adesione del modello a queste linee guida.

Il tempismo di questa pubblicazione arriva durante un periodo di intenso dibattito sul comportamento dell'IA e sulle protezioni di sicurezza. Sebbene OpenAI sostenga che questo aggiornamento sia stato guidato dal feedback accumulato e dai progressi della ricerca dalla prima versione dello scorso maggio, arriva mentre il settore è alle prese con incidenti di alto profilo che coinvolgono le risposte dei modelli AI a argomenti sensibili .

OpenAI sta sollecitando il feedback del pubblico sulla specifica tramite un modulo sul suo sito web. "Vogliamo portare queste discussioni interne al pubblico", ha detto Laurentia Romaniuk, un altro membro del team di comportamento del modello.

"Sapevamo che sarebbe stato piccante, ma penso che rispettiamo la capacità del pubblico di digerire effettivamente queste cose piccanti e di elaborarle con noi", ha detto Jang, aggiungendo che OpenAI ha incorporato molto del feedback ricevuto dopo il lancio del primo Model Spec l'anno scorso. "Sono un po' preoccupata che, poiché è così lungo, non molte persone potrebbero avere il tempo di sedersi e elaborare veramente le sfumature, ma accetteremo qualsiasi feedback."