Questa mossa permetterà ad altri sviluppatori di IA generativa di utilizzare SynthID per rilevare se i testi prodotti provengono dai propri modelli linguistici di grandi dimensioni (LLM). L'obiettivo è facilitare lo sviluppo responsabile dell'IA, in un momento in cui i watermark stanno diventando sempre più importanti per contrastare l'uso improprio dei modelli linguistici.
Come funziona SynthID
SynthID aggiunge un watermark invisibile ai contenuti generati dall'IA, inclusi immagini, audio, video e testo. Per il testo, il processo funziona modificando leggermente la probabilità di scelta delle parole durante la generazione:1. L'LLM genera il testo un token alla volta (che può essere un carattere, una parola o parte di una frase)
2. Il modello assegna punteggi di probabilità ai possibili token successivi
3. SynthID modifica leggermente questi punteggi di probabilità, creando un pattern rilevabile dal software ma non dagli umani
4. Questo processo viene ripetuto per l'intero testo generato
Vantaggi e limitazioni
Secondo Google, SynthID:- Non compromette qualità, accuratezza, creatività o velocità del testo generato
- Funziona su testi di almeno 3 frasi, anche se modificati o parafrasati
- È già integrato nel chatbot Gemini di Google
Tuttavia, il sistema ha alcune limitazioni:- Difficoltà con testi molto brevi
- Problemi con contenuti completamente riscritti o tradotti
- Criticità con risposte a domande fattuali
Il contesto più ampio
L'importanza dei watermark sta crescendo di pari passo con l'uso improprio dei modelli linguistici per:- Diffondere disinformazione politica
- Generare contenuti sessuali non consensuali
- Altri scopi malevoli
La California sta valutando di rendere obbligatorio il watermarking per l'IA, mentre la Cina lo richiede già dal 2023. Tuttavia, queste tecnologie sono ancora in fase di sviluppo e perfezionamento.
Le dichiarazioni di Google
Pushmeet Kohli, vicepresidente della ricerca presso Google DeepMind, ha dichiarato al MIT Technology Review:"Ora altri sviluppatori di IA generativa potranno utilizzare questa tecnologia per aiutarli a rilevare se gli output di testo provengono dai loro modelli linguistici di grandi dimensioni, rendendo più facile per più sviluppatori costruire IA in modo responsabile."
Google ha anche affermato in un post sul blog a maggio:"SynthID non è una soluzione definitiva per identificare i contenuti generati dall'IA, ma è un importante elemento costitutivo per sviluppare strumenti di identificazione dell'IA più affidabili e può aiutare milioni di persone a prendere decisioni informate su come interagire con i contenuti generati dall'IA."
Conclusioni
La decisione di Google di rendere open source SynthID rappresenta un passo significativo verso una maggiore trasparenza e responsabilità nello sviluppo dell'IA generativa. Mentre la tecnologia continua a evolversi rapidamente, strumenti come questo potrebbero giocare un ruolo cruciale nel bilanciare l'innovazione con la necessità di salvaguardare l'integrità dell'informazione e la fiducia del pubblico.
Tuttavia, come sottolineato da Google stesso, SynthID non è una soluzione definitiva. Il suo successo dipenderà dall'adozione da parte degli sviluppatori e dalla sua efficacia nel contrastare gli usi impropri dell'IA, pur mantenendo la qualità e l'utilità dei contenuti generati. La strada verso un ecosistema IA più responsabile e trasparente è ancora lunga, ma iniziative come questa rappresentano passi importanti nella giusta direzione.