Il "black-box forgetting" consente di ottimizzare i prompt di testo forniti al modello per farlo "dimenticare" determinate classi di oggetti che non sono necessarie per un'applicazione specifica, mantenendo al contempo l'accuratezza per le classi rilevanti. Questo approccio è particolarmente utile quando si lavora con modelli AI come "black box", di cui non si conoscono i dettagli interni.
Il professor Go Irie, che ha guidato lo studio, spiega: "Nelle applicazioni pratiche, raramente è richiesta la classificazione di tutti i tipi di oggetti. Ad esempio, in un sistema di guida autonoma sarebbe sufficiente riconoscere classi limitate di oggetti come auto, pedoni e segnali stradici. Non avremmo bisogno di riconoscere cibo, mobili o specie animali".
Per superare le limitazioni dei metodi esistenti, che richiedono l'accesso ai parametri interni del modello, i ricercatori hanno sviluppato una strategia di ottimizzazione "derivative-free". Hanno esteso un algoritmo evolutivo chiamato CMA-ES e introdotto una nuova tecnica di parametrizzazione denominata "latent context sharing".
Vantaggi e implicazioni
Questo approccio innovativo potrebbe avere importanti implicazioni nel campo dell'intelligenza artificiale e del machine learning:
- Migliorare le prestazioni dei modelli di grandi dimensioni in compiti specializzati
- Prevenire la generazione di contenuti indesiderati da parte dei modelli di generazione di immagini
- Affrontare problemi di privacy, consentendo la rimozione selettiva di informazioni dai modelli senza dover ricorrere a un costoso riaddestramento completo
Il professor Irie sottolinea: "L'oblio selettivo, o cosiddetto 'machine unlearning', potrebbe fornire una soluzione efficiente al problema della rimozione di informazioni specifiche dai modelli, rispettando il 'diritto all'oblio'".
I ricercatori hanno validato il loro approccio utilizzando diversi dataset di classificazione di immagini, cercando di far "dimenticare" a CLIP il 40% delle classi in un determinato dataset. I risultati sono stati promettenti, segnando la prima volta in cui si è cercato di far fallire un modello pre-addestrato nel riconoscimento di classi specifiche in condizioni di "black box".
Questo metodo potrebbe contribuire a rendere i grandi modelli di AI più efficienti, sostenibili e adattabili a esigenze specifiche, aprendo nuove possibilità per il loro utilizzo in vari settori.