Sony rivoluziona l'accompagnamento musicale

Sony rivoluziona l'accompagnamento musicale

> Negli ultimi decenni, molti ingegneri hanno iniziato a sviluppare strumenti basati sull'intelligenza artificiale (IA) per supportare il lavoro dei professionisti creativi, accelerando o migliorando la produzione di vari tipi di contenuti. Tra questi vi sono modelli computazionali che possono generare tracce musicali e facilitare alcuni aspetti della produzione musicale.

Negli ultimi decenni, molti ingegneri hanno iniziato a sviluppare strumenti basati sull'intelligenza artificiale (AI) per supportare il lavoro dei professionisti creativi, accelerando o migliorando la produzione di diversi tipi di contenuti. Tra questi figurano modelli computazionali in grado di generare tracce musicali e facilitare alcuni aspetti della produzione musicale.

Ricercatori di Sony CSL hanno lavorato su varie soluzioni basate su AI progettate per aiutare musicisti, produttori musicali e altri appassionati di musica nei loro sforzi creativi. In un recente documento pubblicato sul server di preprint arXiv, hanno presentato Diff-A-Riff, un modello computazionale promettente che può generare accompagnamenti strumentali di alta qualità per qualsiasi musica. "Il nostro recente documento si basa sulla nostra precedente ricerca sulla generazione di accompagnamenti per il basso," ha spiegato il team musicale di Sony CSL Parigi a Tech Xplore. "Mentre il nostro lavoro precedente si concentrava sulla creazione di linee di basso per completare tracce esistenti, Diff-A-Riff estende questo concetto per generare accompagnamenti di singolo strumento per qualsiasi tipo di strumento."

L'obiettivo principale del lavoro recente del team musicale di Sony CSL Parigi era creare un sistema AI versatile in grado di generare accompagnamenti strumentali di alta qualità che si integrino perfettamente in un dato contesto musicale, concentrandosi su un solo strumento alla volta. Lo strumento sviluppato si basa su due tecniche di apprendimento profondo potenti e distinti: i modelli di diffusione latente e gli autoencoder di consistenza.

"Diff-A-Riff sfrutta la potenza dei modelli di diffusione latente e degli autoencoder di consistenza per generare accompagnamenti strumentali che corrispondano allo stile e alla tonalità di un dato contesto musicale," hanno spiegato. "Il sistema comprime prima l'audio di input in una rappresentazione latente usando un autoencoder di consistenza pre-addestrato, un codec sviluppato internamente, che garantisce una decodifica di alta qualità attraverso un decodificatore generativo. Questa rappresentazione compressa viene poi inserita nel nostro modello di diffusione latente, che genera nuovo audio nello spazio latente, condizionato dal contesto di input e riferimenti di stile facoltativi da incorporamenti di testo o audio."

Diff-A-Riff ha numerosi vantaggi rispetto ad altri strumenti per la generazione di accompagnamenti strumentali. Il primo è il suo controllo versatile, che consente agli utenti di condizionare sia prompt audio che di testo, offrendo loro una maggiore flessibilità nella guida alla generazione di accompagnamenti. Inoltre, Diff-A-Riff produce output di alta qualità, con audio pseudo-stereo di 48kHz. "Diff-A-Riff riduce anche significativamente il tempo di inferenza e l'uso della memoria rispetto ai sistemi precedenti, poiché usiamo un rapporto di compressione di 64x," ha spiegato il team.

Il team musicale di Sony CSL ha valutato il loro modello in una serie di test. I loro risultati sono stati molto promettenti, poiché il modello ha generato accompagnamenti strumentali di alta qualità per varie tracce musicali che gli ascoltatori umani non sono stati in grado di distinguere dagli accompagnamenti registrati suonati da musicisti umani.

Lo strumento di generazione di accompagnamenti strumentali sviluppato da Sony CSL potrebbe presto essere impiegato da produttori musicali in tutto il mondo, permettendo loro di creare tracce strumentali che completino le loro composizioni esistenti. Diff-A-Riff potrebbe anche essere utilizzato da artisti per esplorare facilmente nuove idee musicali o da sound designer per testare rapidamente diversi timbri o stili di esecuzione per i loro progetti. "I nostri piani di ricerca futuri includono il potenziare le capacità di Diff-A-Riff migliorando i meccanismi di controllo e esplorando nuovi modi per integrare il modelo nelle varie fasi del processo di produzione musicale," ha aggiunto il team.

Logo AiBay