Benedetto MP3, che tu sia maledetto

Nell’era delle connessioni a banda larga, della fibra ottica e dei video in HD su YouTube, l’MP3 è ancora il formato di riferimento per i file audio. Siamo ormai così abituati ad ascoltare musica in formati compressi e, spesso, attraverso sistemi di riproduzione di scarsa qualità, che facciamo fatica a ricordare cosa vuol dire davvero ascoltare la musica. La recente evoluzione dal download allo streaming mordi-e-fuggi non ha fatto altro che peggiorare la situazione svalutando ulteriormente il valore della musica. Quand’è stata l’ultima volta che avete ascoltato un disco dall’inizio alla fine senza interruzioni dedicando quei 30-40 minuti alla «semplice» attività dell’ascolto?

Premessa: questo post non è una crociata contro Spotify perché io stesso lo uso per le nuove uscite o per avere della musica di sottofondo al lavoro, non è nemmeno un post analogico vs digitale (o vinile vs CD vs MP3) perché su questo argomento è già stato detto tanto. Il mio scopo è quello di farvi capire cosa state perdendo – in termini qualitativi – se ascoltate la musica in formati compressi.

Campionamento e aspetti teorici

Registrare dell’audio su un computer o su un supporto digitale presuppone che il segnale passi attraverso un convertitore Analogico > Digitale (AD) affinché il segnale elettrico continuo generato dai microfoni o dagli strumenti musicali sia trasformato in un segnale digitale (serie di 0 e 1). Questo processo si chiama campionamento. La qualità finale della registrazione dipende da una serie di fattori: qualità del convertitore, frequenza di campionamento e bit depth.

Per fare un paragone facilmente comprensibile: quando viene girato un film la realtà «analogica» percepita dal nostro occhio viene immagazzinata su una pellicola che scatta 24 fotogrammi ogni secondo. Se consideriamo lo standard del CD audio (44.1 kHz, 16bit), per ogni secondo di musica vengono scattate dal computer 44100 fotografie al segnale elettrico continuo. Se con la frequenza di campionamento abbiamo semplicemente stabilito quante volte in un secondo la forma d’onda deve essere analizzata, con il bit depth assegniamo a ciascun campione un valore numerico: 2^16 = 65.536 valori possibili.

Se vi state chiedendo come si sia arrivati a 44.100, vi rimando al Teorema del campionamento di Nyquist-Shannon.

Quando premiamo il tasto di registrazione sul nostro computer, attraverso il processo di campionamento PCM (Pulse-Code Modulation) sopra descritto, i file vengono salvati in formato non compresso WAV o AIFF.

File lossless e file lossy

I file PCM occupano parecchio spazio sui nostri hard disk perché, come abbiamo visto, al loro interno ci sono i dati necessari per descrivere il più fedelmente possibile la forma d’onda analogica. Indicativamente un file WAV o AIFF in qualità CD audio occuperà 10MB per ogni minuto di musica.

Per ovviare a questo problema – ricordo che nei primi anni 2000 lo spazio di archiviazione costava circa $10/GB mentre, oggi, il prezzo è di circa $0,03/GB (fonte) – sono stati introdotti dei formati audio che, attraverso un algoritmo di codifica e decodifica delle informazioni, riducono la dimensione dei file. Questi codec sono divisi in due categorie: formati con compressione lossless e formati con compressione lossy.

Come dice il nome stesso, compressione lossless indica una riduzione del peso del file (normalmente all’incirca del 50%) senza perdita di informazioni. Mettendo da parte per un secondo il mondo dell’audio, i file ZIP e RAR sono dei chiari esempi di questo tipo di compressione: in un qualsiasi momento noi possiamo «scompattare» un file di questo tipo e avere nuovamente accesso all’informazione originale senza che questa sia stata in alcun modo modificata.

I formati di file più comuni sono: FLAC (Free Lossless Audio Codec) e ALAC (Apple Lossless Audio Codec).

La compressione di tipo lossy, invece, implica che parte dell’informazione audio originaria venga in qualche modo eliminata per ottenere un file che arrivi a pesare anche il 90% in meno rispetto al PCM.

In base a quale criterio vengono eliminate le informazioni senza «compromettere» troppo l’audio originale? Dal momento che il nostro orecchio è uno strumento imperfetto, i codec sfruttano due principi di psicoacustica: la soglia di udibilità minima (l’orecchio umano non percepisce in modo eguale tutte le frequenze nel range tra 20Hz e 20kHZ) e il mascheramento (un suono più debole viene mascherato, diventando quindi inudibile, da un suono più forte).

Gli algoritmi di compressione, per quanto evoluti, introducono una serie di artefatti nei file audio che se riprodotti su impianti audio di qualità discreta possono essere riconosciuti o, quantomeno, notati facilmente anche da un orecchio inesperto. Diversi studi hanno dimostrato che un orecchio non allenato non distingue la differenza tra un file non compresso e un MP3 con bitrate pari a 256kb/s o superiore.

I formati lossy più comuni sono: l’MP3, l’OGG Vorbis, l’AAC.

La vittoria dell’MP3

Dalla sua introduzione alla metà degli anni ’90, l’MP3 si è imposto come il formato standard del settore consumer spinto dallo scambio dei file attraverso canali peer-to-peer – dove, con connessioni lente, più pesante era il file da scaricare, maggiore era il tempo impiegato per ottenerlo – e dall’introduzione sul mercato dei lettori MP3 nei quali si cercava di immagazzinare più musica possibile e, quindi, si ricorreva a file molto compressi.

Nel passaggio dall’era del download a quello dello streaming file di piccole dimensioni garantiscono una trasmissione dei dati più fluida e senza interruzioni.

Nonostante, quindi, l’evoluzione che si è avuta negli ultimi anni della velocità delle connessioni internet e l’abbassamento del prezzo dei sistemi di archiviazione, solo negli ultimi anni sono nati servizi per acquistare file audio di alta qualità on-line (HD Tracks) o servizi di streaming HD (Tidal).

Esempi e file audio

I principali servizi che utilizziamo per comprare o ascoltare musica utilizzano questi livelli di compressione (tutte le informazioni sono prese dai siti ufficiali di ciascun servizio nel momento in cui è stato scritto questo post).

  • Spotify: file OGG Vorbis a 96kb/s (qualità normale mobile), 160kb/s (deskop e web player qualità normale, alta qualità mobile), 320kb/s (utenti premium: alta qualità desktop, altissima qualità mobile).
  • iTunes: di default l’importazione dei CD avviene in file AAC a 128kb/s. Su iTunes Store i file hanno questa qualità eccetto i brani “iTunes Plus” convertiti in AAC a 256kb/s.
  • Pandora: 64kb/s AAC (utenti free), 192kb/s AAC (utenti premium).
  • YouTube: video in HD (720 o 1080p) hanno una qualità audio pari a 384kb/s, video in SD (360, 480p) hanno una qualità audio pari a 128kb/s.

Nei file audio che seguono potete ascoltare le differenze audio tra un file non compresso e diversi tipi di compressione lossy. Ho scelto dei brani di diversi generi musicali per evidenziare come lavorano i codec. Consiglio di ascoltare i file con un impianto audio o cuffie decenti (no, le casse del Mac non valgono).

I file indicati come “controfase” permettono di sentire le informazioni audio che sono andate perse con la compressione lossy e sono ottenuti mettendo in contro fase il file qualità CD con quello compresso.

Per evitare di incorrere in problemi legali, negli esempi audio qui riportati trovate solo 30 secondi di musica per ciascun brano. Potete ricreare gli esempi partendo da dei CD che avete in casa e utilizzando il software gratuito XLD per convertire i file audio nei formati che desiderate.

Di seguito trovate i file audio del brano Belief di John Mayer. Nel pacchetto scaricabile QUI (190MB circa) trovate anche:

  • Led Zeppelin – Rock and Roll
  • Justice – GENESIS
  • Mastodon – Divinations

John Mayer – Belief

WAV – Qualità CD (44.100 Hz, 16bit)

MP3 – 64kbs CBR

MP3 – 64kbs CBR (Controfase)

MP3 – 128kbs CBR

MP3 – 128kbs CBR (Controfase)

MP3 – 256kbs CBR

MP3 – 256kbs CBR (Controfase)

AAC – 128kbs

AAC – 128kbs (Controfase)

AAC – 256kbs

AAC – 256kbs (Controfase)

OGG – 96kbs

OGG – 96kbs (Controfase)

OGG – 160kbs

OGG – 160kbs (Controfase)