Archivi categoria: Music Technology

Spleeter: Isolare la parte vocale in un brano

Isolare la parte vocale in un brano musicale è sempre stato un processo lungo, difficile e, spesso, dai risultati incerti.

Negli ultimi anni, grazie soprattutto a nuove tecnologie e all’aumento della potenza di calcolo dei computer, numerose aziende hanno commercializzato software e plugin che garantiscono risultati sempre migliori. Purtroppo siamo ancora lontani dall’avere uno strumento semplice da usare, veloce e in grado di garantire risultati di qualità.

La ricerca o la creazione di stems, ovvero le tracce separate partendo da un mix stereo, è un’occupazione che, ancora oggi, porta via a DJ e produttori molte ore di lavoro.

Da oggi le cose potrebbero cambiare grazie a Spleeter: uno strumento rilasciato gratuitamente da Deezer nei giorni scorsi che sfrutta l’intelligenza artificiale per separare automaticamente le varie componenti di un brano.

Spleeter è un software che permette di isolare la traccia vocale da un brano musicale completo.

I risultati che si ottengono non sono ancora perfetti ma il fatto che Spleeter lavori in completa autonomia e produca degli output in pochissimi minuti è sicuramente un importante passo avanti.

Al momento è possibile separare i brani in 2, 4 oppure 5 stems:

  • 2 stems: voce e accompagnamento musicale
  • 4 stems: voce, batteria, basso e altre parti
  • 5 stems: voce, batteria, basso, piano e altre parti

Per poter utilizzare Spleeter è necessario installare qualche pacchetto sul proprio computer e utilizzare la linea di comando per farlo funzionare. Sono sicuro che nel giro di qualche settimana verrà reso disponibile da qualcuno un programma che integri le funzioni di Spleeter con un’interfaccia grafica semplice da utilizzare.

Per chi fosse curioso di provare Spleeter di seguito troverete le istruzioni passo passo per installare tutto il necessario.

Installazione su Mac

Per prima cosa è necessario installare Miniconda sul nostro computer. Si tratta di un pacchetto che contiene tutto il necessario per creare un ambiente di sviluppo per far funzionare Spleeter correttamente.

Quando l’installazione è conclusa dobbiamo aprire il Terminale che si trova nella cartella Applicazioni > Utility.

Verificate che sul vostro computer sia installato Git scrivendo il seguente comando:

git --version

Se ricevete un errore, dovete procedere con l’installazione di Git: potete scaricare il pacchetto andando qui. Se, invece, ricevete un output con su scritto qualcosa simile a git version 2.23.0 allora potete procedere con l’installazione di Spleeter.

Per prima cosa andate nella cartella documenti con il comando

cd ~/Documents

E poi lanciate il seguente comando:

git clone https://github.com/deezer/spleeter

Attendete la fine del download. Una volta completato dovreste vedere una cartella nominata spleeter all’interno della cartella Documenti.

Ora creiamo l’ambiente di sviluppo con il seguente comando:

conda env create -f spleeter/conda/spleeter-cpu.yaml

E, infine, procediamo con l’attivazione

conda activate spleeter-cpu

Una volta completate tutte le operazioni, ricordatevi di disattivare l’ambiente con il comando

conda deactivate

Utilizzare Spleeter per separare la parte vocale da un brano

All’interno della cartella di Spleeter c’è un file mp3 chiamato audio_example.mp3. Lanciando il seguente comando il file verrà analizzato e verranno create 2 stems: una per la parte vocale e una per quella musicale.

spleeter separate -i spleeter/audio_example.mp3 -p spleeter:2stems -o output

Dentro la cartella Documenti ora troverete una cartella nominata output con, al suo interno, una sottocartella audio_example con i file separati.

Per utilizzare il software su altri brani sarà sufficiente copiare il file .mp3 oppure .wav nella cartella spleeter e lanciare il comando qui sopra assicurandosi di scrivere correttamente il nome del file; vi consiglio di rinominare i brani evitando spazi, lettere accentate, ecc…).

Se volete estrarre 4 o 5 stems utilizzate questo comando:

spleeter separate -i spleeter/audio_example.mp3 -p spleeter:4stems -o output
spleeter separate -i spleeter/audio_example.mp3 -p spleeter:5stems -o output

Esempi audio e limitazioni

Ecco un paio di esempi di divisione in due stems

Tones and I – Dance Monkey

Parte vocale
Accompagnamento musicale

Billie Jean – Michael Jackson

Parte vocale
Accompagnamento musicale

Come indicato sul sito degli sviluppatori: se intendete utilizzare questo strumento su materiale protetto da copyright, assicuratevi di avere tutte le autorizzazioni del caso.

What is sound?

When I teach my Audio Engineering class, in the very first lesson I always ask my students what is sound for them. The answers are always interesting because sound is something that we all experience every day: we are surrounded by it but, nonetheless, we struggle to find the right words to describe it.

After listening to all the answers, the second thing that I usually do is showing them this awesome 3 minute video made by Soundcloud.

Sound is kinda like a color that you can hear.

I love this quote because most of the time we refer to sound using visual images. If you think about it, it’s hard to describe colours too.

So… What is sound?

Sound is caused by vibrations of molecules in any object (or medium). For instance, we can hear sound in water or in other materials such as metals but, because we are used to hear sounds in an environment composed mainly of air, we can safely say that sound is the vibration of air.

Air is a medium composed by molecules of various type: oxygen, nitrogen, carbon dioxide, etc… but we don’t want (and not need to) to think about it. The real thing that matters is that between these molecules there is empty space. This mean that we can push together (or compress) air molecules into a smaller place. Thanks to  the elasticity property of air, after being compressed, these molecules spring apart.

Unfortunately air molecules are so small that we can’t see this phenomenon happening in the air, however, as shown in the video below, we can reproduce it with a slinky spring:

Sound travels in the air through sound waves which are longitudinal waves that are generated when the molecules are pushed together (compression), then allowed to spring apart (rarefaction) and then pushed together again in a repeating pattern.

Sound Wave
Image courtesy of Daniel A. Russell

As shown in this animation, when pushed together, molecules don’t move really far from their original position even though sound waves can travel long distances.

As reference, we usually say that in the air sound travels at approximately 340 meters per second but, as you can easily guess, this value can vary greatly due to the density of the molecules which is affected by temperature, humidity and, of course, altitude.

In space no one can hear you scream

Do you remember this tagline used to promote Alien’s movie in 1979? Even if space isn’t empty, the distances between molecules are so large that the repeating pattern of compressions and rarefaction described above can’t be generated so there can be no sound.

How do we perceive sound?

Back to the earth, we just learned that sound waves travels through air until they reach our ears. The differences in air pressure are captured by the outer ear (pinna) and funneled into the ear canal. The eardrum – the limit between the outer and the middle ear – starts to vibrate and transmits this movement to three small bones: the hammer, the anvil and the stirrup. Eventually the vibrations reach the fluid inside the cochlea in the inner ear. The vibrations of the fluid are captured by tiny hair cells that with their movement, generate electrical signals which are picked up by the hearing nerve and sent to the brain.

In the end is the brain to translate the electrical pulses into what we perceive as sound.

If you think about it, the ear is a very sensitive organ: if we are staying in a very quiet room with no sound coming from the outside we can easily ear a mosquito flying around 3 meters away. Likewise our ears are able to stand large amount of pressure variations like a jet engine at full power for a limited time before being damaged.

We have to keep in mind though that we don’t all hear the same: there are many factors that can alter our perception of sounds: our age, our medical history, if we’ve been exposed to very loud sounds for long periods of time and so on.

Mixare è come cucinare

Molto spesso mi servo di analogie per uscire dall’impasse di dover descrivere ai miei studenti, in termini facilmente comprensibili, questioni legate al mondo del suono e dell’audio che, per loro natura, sono soggettive o difficilmente descrivibili a parole.

Di recente mi è capitato di paragonare la professione del fonico, sia esso in studio di registrazione che live, con il mondo della cucina.

Gli ingredienti

Scegliere gli ingredienti giusti per mixare
Photo Credit: The Little Squirrel

Per prima cosa dobbiamo partire dagli ingredienti: in ogni cucina ci devono essere degli ingredienti base che non possono mancare ai quali, di volta in volta, ne dovranno essere aggiunti altri che dovranno essere freschi e di qualità. Indipendentemente dalla ricetta, dagli strumenti utilizzati e dalla persona che lo prepara, se cuciniamo un piatto con qualche ingrediente non fresco, il risultato sarà sicuramente da buttare.

Nel caso di un lavoro in studio di registrazione, gli ingredienti di un mix sono, ovviamente, le tracce audio; le nostre registrazioni devono essere della massima qualità sia per quanto riguarda l’aspetto tecnico (non starete mica registrando a 16 bit, vero?), che per quello musicale: evitate clip e distorsioni, non mettete un gain troppo alto perché, quando si lavora in digitale, è facile recuperare tracce con gain basso ma impossibile lavorare con quelle che sono andate in distorsione. Il nostro obiettivo è quello di registrare la miglior performance del musicista e, per farlo, dobbiamo mettere gli strumentisti a loro agio, assicurarci che le chitarre siano accordate, essere pronti a registrare e, per sicurezza, premere sempre REC anche quando “si fa una prova”.

In ambito live gli ingredienti sono i musicisti che sono sul palco: più sono professionali, migliore sarà il risultato finale. Anche in questo caso il vostro compito è quello di fare in modo che loro siano a loro agio e, durante la sera, possano fare la miglior performance possibile.

La ricetta

La ricetta
Photo Credit: ciuccio51

La ricetta è il punto di partenza di ogni esperimento culinario: che si parta completamente da zero o che si esegua un piatto già noto, le ricette sono la nostra guida (anche solo per controllare la quantità di un singolo ingrediente) e il libro delle ricette è il Sacro Graal di ogni chef. Fuor di metafora, le ricette sono i nostri riferimenti musicali e il libro delle ricette è la nostra libreria musicale. Più saremo curiosi e avidi di «nuova» musica, più sarà semplice il nostro lavoro di mixing engineer.

La cucina

Photo Credit: Julicious Photography
Photo Credit: Julicious Photography

Se stiamo pensando al lavoro in studio di registrazione, la cucina è la nostra Digital Audio Workstation ovvero il software che decidiamo di utilizzare per il nostro lavoro. Quando mi viene chiesto qual è il programma migliore per comporre, registrare, mixare, ecc…, la mia risposta è sempre la stessa: quello che conosci e sai usare meglio.

Fino a qualche anno fa esisteva una reale differenza in termini di qualità, prestazioni e potenzialità tra Pro Tools, Logic Pro, Digital Performer, Cubase, … . Oggi queste differenze si sono assottigliate parecchio e, come dicevo prima, il principio fondamentale deve essere quello di riuscire a compiere l’azione che vogliamo fare nel minor tempo possibile. Così come un cuoco è padrone della sua cucina e sa bene cosa si nasconde dentro ogni mobile e dentro ogni cassetto, quando si registra o siamo in fase di mix non dobbiamo perdere più di tre secondi per ogni azione che vogliamo compiere. Quindi scegliete un software, studiatelo bene e usate solo ed esclusivamente quello; installarne due e provare a utilizzarli entrambi sarà solo una gran perdita di tempo.

Nota a margine: quando avete un sistema funzionante e ottimizzato, NON aggiornate MAI. Ho sentito storie di tecnici del suono che utilizzano ancora Pro Tools 5.

Nel caso dei live, invece, la cucina è la strumentazione che stiamo usando e, in particolare, il mixer. Negli ultimi anni i mixer digitali hanno invaso il mercato grazie ai costi sempre più accessibili; ognuna di queste macchine ha possibilità pressoché infinite e, proprio per questo, dobbiamo conoscere la funzione di ogni tasto o knob e sapere che se stiamo muoviamo un fader, stiamo realmente ottenendo l’effetto che cercavamo.

Gli utensili

Photo Credit: felix388
Photo Credit: felix388

Una volta scelta con attenzione la nostra cucina, dobbiamo imparare a utilizzare ogni strumento nel modo giusto. Tentare di sbucciare un’arancia con un cucchiaino da caffé non ci porterà molto lontano così come cercare di eliminare con un riverbero il rientro dell’hi-hat nel microfono del rullante sarà fatica sprecata. Il mio esempio è, ovviamente, assurdo ma (molto) spesso mi capita di vedere ragazzi che utilizzano in modo inappropriato i compressori. Consiglio: non andate alla continua ricerca dell’ultimo plug-in in vendita o all’acquisto di hardware sempre nuovi; imparate a usare bene quelli che sono già a disposizione, gratuitamente, nella vostra DAW (o quelli che avete già acquistato); saranno sufficienti nel 99% dei casi.

Il cuoco

Photo Credit: Ansgar Trimborn
Photo Credit: Ansgar Trimborn

Alla fine tocca anche al cuoco perché pur partendo con gli ingredienti migliori, la cucina più attrezzata e gli strumenti giusti, è il cuoco che fa la magia. La stessa cosa avviene anche quando si mixa: è il «gusto» del fonico a fare la differenza.

Come si diventa dei bravi cuochi? Con la pratica: ore e ore di cucina, ore passate nei mercati per imparare a scegliere gli ingredienti giusti dai venditori migliori, un sacco di piatti buttate nella pattumiera per puntare a raggiungere un risultato migliore.