Google svela strumento open source per testi AI

Google ha reso open source il suo strumento di watermarking SynthID per il testo generato dall'intelligenza artificiale. L'annuncio è stato fatto dall'azienda su X (ex Twitter) il 23 ottobre 2024, rendendo la tecnologia disponibile agli sviluppatori attraverso il Google Responsible Generative AI Toolkit.

Questa mossa permetterà ad altri sviluppatori di IA generativa di utilizzare SynthID per rilevare se i testi prodotti provengono dai propri modelli linguistici di grandi dimensioni (LLM). L'obiettivo è facilitare lo sviluppo responsabile dell'IA, in un momento in cui i watermark stanno diventando sempre più importanti per contrastare l'uso improprio dei modelli linguistici.

Come funziona SynthID

SynthID aggiunge un watermark invisibile ai contenuti generati dall'IA, inclusi immagini, audio, video e testo. Per il testo, il processo funziona modificando leggermente la probabilità di scelta delle parole durante la generazione:

1. L'LLM genera il testo un token alla volta (che può essere un carattere, una parola o parte di una frase)

2. Il modello assegna punteggi di probabilità ai possibili token successivi

3. SynthID modifica leggermente questi punteggi di probabilità, creando un pattern rilevabile dal software ma non dagli umani

4. Questo processo viene ripetuto per l'intero testo generato

Il pattern finale di scelte e probabilità modificate costituisce il watermark.

Vantaggi e limitazioni

Secondo Google, SynthID:

- Non compromette qualità, accuratezza, creatività o velocità del testo generato

- Funziona su testi di almeno 3 frasi, anche se modificati o parafrasati

- È già integrato nel chatbot Gemini di Google

Tuttavia, il sistema ha alcune limitazioni:

- Difficoltà con testi molto brevi

- Problemi con contenuti completamente riscritti o tradotti

- Criticità con risposte a domande fattuali

Il contesto più ampio

L'importanza dei watermark sta crescendo di pari passo con l'uso improprio dei modelli linguistici per:

- Diffondere disinformazione politica

- Generare contenuti sessuali non consensuali

- Altri scopi malevoli

La California sta valutando di rendere obbligatorio il watermarking per l'IA, mentre la Cina lo richiede già dal 2023. Tuttavia, queste tecnologie sono ancora in fase di sviluppo e perfezionamento.

Le dichiarazioni di Google

Pushmeet Kohli, vicepresidente della ricerca presso Google DeepMind, ha dichiarato al MIT Technology Review:

"Ora altri sviluppatori di IA generativa potranno utilizzare questa tecnologia per aiutarli a rilevare se gli output di testo provengono dai loro modelli linguistici di grandi dimensioni, rendendo più facile per più sviluppatori costruire IA in modo responsabile."

Google ha anche affermato in un post sul blog a maggio:

"SynthID non è una soluzione definitiva per identificare i contenuti generati dall'IA, ma è un importante elemento costitutivo per sviluppare strumenti di identificazione dell'IA più affidabili e può aiutare milioni di persone a prendere decisioni informate su come interagire con i contenuti generati dall'IA."

Conclusioni

La decisione di Google di rendere open source SynthID rappresenta un passo significativo verso una maggiore trasparenza e responsabilità nello sviluppo dell'IA generativa. Mentre la tecnologia continua a evolversi rapidamente, strumenti come questo potrebbero giocare un ruolo cruciale nel bilanciare l'innovazione con la necessità di salvaguardare l'integrità dell'informazione e la fiducia del pubblico.

Tuttavia, come sottolineato da Google stesso, SynthID non è una soluzione definitiva. Il suo successo dipenderà dall'adozione da parte degli sviluppatori e dalla sua efficacia nel contrastare gli usi impropri dell'IA, pur mantenendo la qualità e l'utilità dei contenuti generati. La strada verso un ecosistema IA più responsabile e trasparente è ancora lunga, ma iniziative come questa rappresentano passi importanti nella giusta direzione.