D.A.V.I.D. Il software audio che dà voce alle emozioni e viceversa

di Andrea Gozzi

14771775790_4ff52b68d3_o

Recentemente un gruppo di ricercatori all’interno dell’IRCAM, riunitisi sotto la sigla CREAM e autodefinitisi audio geeks on a mission to the Amygdala, sta indagando il modo in cui la musica influisce sulle emozioni umane, muovendosi in un ambito di ricerca multidisciplinare che unisce l’elaborazione del segnale audio alle neuroscienze cognitive. Una delle prime loro ricerche ha avuto come focus la voce umana.

A settembre 2015 è stato pubblicato online il software D.A.V.I.D. (Da Amazing Voice Inflection Device), ideato e realizzato da Marco Liuni assieme all’équipe CREAM e chiamato così anche in onore di uno dei suoi primi celebri tester, il musicista David Byrne .

DAVID IMG 1

Il software, una patch di Max (Cyclin’74) open source, permette attraverso una serie di strumenti di trattamento sonoro digitale di “aggiungere emozioni” ad una voce neutra o senza particolari inflessioni emotive, funzionando sia in tempo reale (con un ritardo di circa 15 millisecondi) sia su campioni audio pre-registrati. Combinando quattro differenti finestre di controllo principali (pitchvibratoinflection – cioè un local pitch filter ovvero un inviluppo – e filter) e la relativa quantità di effetto desiderato per ognuno degli strumenti, è possibile creare diverse inflessioni emotive e salvare i parametri come preset (alcuni sono forniti assieme al software) per creare una libreria personale. Si può anche decidere di passare da uno stato emozionale all’altro attraverso un controllo dedicato, ottenendo un passaggio graduale tra più stati in base ad un tempo da specificare.

Qualche esempio pratico. Per ottenere un’inflessione “felice” si è optato per una manipolazione che vede l’utilizzo del pitchshit verso tonalità più alte (highshift) unita ad un modifica dinamica ottenuta tramite un compressore audio, per dare l’idea di “prossimità e confidenza”, unite infine ad una modifica spettrale attraverso un filtro passa-alto per dare l’idea di eccitazione. In senso contrario, la manipolazione “triste” prevede invece un pitchshift verso tonalità basse (downshift) e l’utilizzo di un filtro passa-basso. Per dare un’inflessione “impaurita” si è optato per l’utilizzo del vibrato in combinazione con un cambio repentino di dinamica nel tempo per ottenere un suono “tremolante”. Se ne possono ascoltare alcuni esempi qui.

Abbiamo contattato uno degli sviluppatori del software, Dr. Marco Liuni, per alcune domande.

Qual è stato il lavoro concettuale e tecnico alla base del processo di “analisi” per procedere poi alla realizzazione del software?

MARCO LIUNI: Il lavoro svolto per D.A.V.I.D. è molto simile a quel che farebbe un sound designer, piuttosto che quello di un ingegnere del segnale. Non abbiamo definito un modello esaustivo per lespressione di unemozione, il nostro approccio è stato di scegliere un modello sulla base di evidenze fisiche semplici: ad esempio, un lieve aumento del pitch o unenfatizzazione delle frequenze acute associato alla gioia, linverso alla tristezza. Sulla base di elementi di questo tipo, abbiamo costruito un insieme di moduli elementari, e determinato “ad orecchio” alcune combinazioni che possono essere associate a emozioni specifiche: dopo di che, abbiamo validato il modello, testando i risultati ottenuti con esperienze percettive su un ampio numero di persone, di cultura e lingua diverse (Francia, Giappone, Inghilterra, Svezia).

In questa fase di analisi avete preso in esame il comportamento vocale di un numero di persone?

M.L: Lapproccio tipico per questo genere di applicazione in elaborazione del segnale è quello di creare un modello, a partire dallapprendimento automatico dellespressione vocale di un certo numero di persone, tipicamente attori: si chiede loro di esprimere diverse emozioni in una stessa frase, in modo che la macchina possa apprendere un comportamento di riferimento. Nel caso delle emozioni, le ricerche di cui eravamo a conoscenza hanno incontrato due problemi fondamentali: in primo luogo, persone diverse esprimono la stessa emozione in modo diverso, e anche una stessa persona non esprimerà necessariamente unemozione sempre in modo identico; inoltre, una stessa persona può esprimere emozioni diverse attraverso un comportamento molto simile. I modelli appresi, di conseguenza, risultano estremamente ambigui. Per aggirare questi problemi, non c’è stato alcun apprendimento automatico nella fase di implementazione del software. Si tratta dunque di un modello euristico, basato su alcune evidenze fisiche.

[Leggi il testo completo]

img: happy_sad_face_smiley by Alan O’Rourke, (CC)

D.A.V.I.D. Il software audio che dà voce alle emozioni e viceversa ultima modifica: 2016-03-01T10:00:38+00:00 da Luisa Santacesaria

Lascia una risposta