Audio digitale

L'audio digitale è la trasposizione di suoni (o di registrazioni di suoni in formato analogico, di output elettrici di strumentazione audio elettronica analogica^[1]) in una forma digitale che può essere convertita, quasi in tempo reale^[2] o in differita, in suoni percepibili dall'uomo anche come identici a quelli originali.

In realtà l'audio digitale è una sorta di vettorializzazione delle forme d'onda originali dei suoni, che non vengono quindi registrate/trasmesse nella forma integrale prodotta ad esempio da trasduttori elettro-acustici quali i microfoni (come invece accade concettualmente di più nelle registrazioni/trasmissioni analogiche), ma in una forma d'onda tanto più comparabile all'originale quanto maggiore è la frequenza di campionamento e la profondità della quantizzazione con cui avviene la conversione analogico-digitale.

A differenza dell'audio analogico, il digitale non risente, in registrazione e in riproduzione, di aggiunte di rumore di fondo né colore^[3]^[4]^[5] tipici dei supporti di registrazione analogica, o di lunghe catene di trasmissione/ri-registrazione di audio analogico.

Approfondimento

Rappresentazione della conversione analogico-digitale di un periodo di una sinusoide analogica, tramite quantizzazione lineare PCM in un sistema numerico binario a 4 bit (16 valori con cui codificare l'ampiezza della forma d'onda in ingresso, da 0 a 15)

Rappresentazione della conversione di un'onda sonora analogica (in rosso) in forma digitalizzata (blu), tramite quantizzazione lineare PCM in un sistema numerico binario a 4 bit (16 valori, da -8 a 7).
Nota: il CD audio contiene audio digitale a 16 bit, corrispondenti a 65536 possibili valori (da 0 a 65535, o da -32768 a 32767)

L'effetto uditivo (dal latino audire) detto suono consiste nella percezione da parte di un apposito dispositivo (orecchio di esseri viventi o microfoni artificiali) delle vibrazioni di frequenze emesse appunto da una "sorgente sonora" e propagate nell'ambiente circostante da un mezzo atto alla loro propagazione (in genere l'aria, ma anche acqua e rocce sono sede di fenomeni analoghi). Quindi il suono si genera in natura come vibrazioni meccaniche, si propaga in analoga maniera e sempre come vibrazioni viene percepito.

Fin dai primordi gli scienziati hanno cercato di trovare varie soluzioni per facilitare questa naturale propagazione con l'ausilio di dispositivi artificiali che aumentassero l'efficienza di questa trasmissione, in particolare cercando di far attraversare al suono spazi maggiori senza essere troppo contaminato da disturbi (detti rumore o noise in inglese) ed eventualmente essere memorizzato su supporti di memorizzazione che ne permettessero, oltre che il trasporto nello spazio, anche quello nel tempo, cioè che ne permettessero una memorizzazione permanente.

Per far ciò molti artifizi tecnologici sono stati usati, fino alla definitiva invenzione del telefono (da parte dell'italiano Antonio Meucci, però brevettata per primo dall'americano Alexander Graham Bell), che permetteva di trasformare i segnali sonori in segnali elettrici che contenevano tutte le informazioni (o quasi) del segnale sonoro originale, ma che potevano essere più facilmente (e più velocemente) trasportate nello spazio (tramite fili elettrici in un primo tempo e successivamente anche tramite onde elettromagnetiche con l'invenzione della radio di Guglielmo Marconi). Per ottenere ciò, al suono veniva associata un'altra grandezza fisica, con caratteristiche di rigorosa relazione con il suono che rappresentava. Questa relazione rigorosa con il suono di partenza permetteva all'arrivo della grandezza fisica di essere di nuovo riconvertita in suono, come ad esempio succede nel ricevitore del telefono, dove la corrente elettrica, che ha trasportato l'informazione sonora, viene all'arrivo ritrasformata in suono dal piccolo altoparlante inserito nella cornetta.

Questa relazione di corrispondenza viene detta trasduzione del suono in corrente elettrica, mediante la trasformazione di un segnale analogico (la voce) in un segnale elettrico (analogico, in forma di corrente alternata) che la rappresenta. Il segnale elettrico viene poi "ricostruito" dall'altra parte del telefono con una codifica opposta da elettrico-analogico ad acustico. Analoghi criteri di trascrizione analogica - trasposizione quanto più possibile fedele della forma d'onda acustica originale su vari supporti fisici - si hanno ad esempio nella registrazione dei suoni tramite variazioni di campo magnetico nel nastro dei registratori a bobine, o nei parametri geometrici di forma e profondità dei solchi nelle vecchie registrazioni su dischi di vinile.

Le moderne tecnologie informatiche, che mettono a disposizione computer capaci di elaborare grandi quantità di numeri al secondo, forniscono un'ulteriore e diversa possibilità di codifica dei suoni, associando ai parametri acustici delle onde sonore delle lunghe serie di numeri (detti anche digit, in italiano cifra), che li rappresentano piuttosto fedelmente e che possono, con elevata precisione essere riconvertite nei suoni originali. Questo processo di codifica delle grandezze fisiche continue (analogiche) in serie numeriche di cifre digitali è detta digitalizzazione e le grandezze sono dette essere rappresentate in maniera digitale. Queste lunghe serie numeriche possono poi essere memorizzate in memorie al silicio (pen drive ad esempio) o in memorie magnetiche (hard disk di computer) o infine in memorie ottiche (CD, DVD o Blu-Ray), per essere trasportate nello spazio e nel tempo.

Il segnale elettrico digitale è qualitativamente e quantitavamente del tutto diverso da quello analogico, anche se con una sufficiente frequenza di campionamento alla sorgente, e una buona connessione nel percorso intermedio fra mittente e destinatario, i sensi non sono in grado di percepire la differenza (sono equivalenti ai fini esterni). Ciò vale sia per la vista che per l'udito.

Lo stato dell'arte attuale prevede che un segnale audio sia convertito (quindi codificato) in un analogo segnale elettrico (analogo per informazione contenuta, a meno dell'inevitabile rumore, anche minimo, introdotto da qualsiasi manipolazione) per mezzo di un microfono, il quale produce, quando viene colpito da una onda meccanica sonora continua, un segnale elettrico ininterrotto, i cui valori di tensione, normalmente compresi in un range (detto dinamica del segnale e compreso tra un minimo e un massimo), contengono la forma dell'onda acustica originaria. Un segnale siffatto, continuo nel tempo e che può assumere con continuità tutti i valori all'interno della sua dinamica, è detto analogico. Una seconda conversione può essere fatta associando a questo segnale una serie numerica (quindi digitale) che codifichi con sufficiente precisione la forma d'onda elettrica analogica originaria, ottenendo così la conversione analogico-digitale, detta brevemente conversione A/D.

Per far questo è necessario andare ripetutamente a leggere i valori di tensione continui della forma d'onda analogica con sufficiente frequenza temporale, cioè effettuare una lettura sufficientemente fitta di questi valori di tensione, producendo un numero di letture (e quindi di valori numerici) in genere molto alto per ogni secondo di conversione A/D. Le singole letture sono dette campioni e il teorema del campionamento afferma che se la frequenza temporale di queste letture (detta frequenza di campionamento) è sufficientemente grande, non si hanno perdite di informazione rispetto alla forma d'onda originale. Cioè la serie di numeri prodotta contiene pressoché intatta tutta la informazione sulla forma d'onda elettrica analogica iniziale. Nei moderni standard tecnologici, in genere le frequenze di campionamento spaziano dagli 8.000 campioni al secondo (Samples per second, S/s) per la voce telefonica, fino ai 44.100 e più campioni al secondo per la qualità musicale. Queste letture di valori di tensione possono poi cadere in un qualsiasi punto della dinamica del segnale, cioè ogni singolo campione può avere un valore compreso tra il minimo e il massimo possibile.

Quindi potenzialmente si possono avere infiniti valori di lettura di tensione per ogni singolo campione. Per completare l'opera di conversione del segnale da analogico in digitale, va ora suddivisa tutto il possibile range dinamico del segnale in un numero finito di intervalli e ogni singolo intervallo va codificato con un valore digitale ben determinato. Queste due operazioni si chiamano quantizzazione e codifica di sorgente. La quantizzazione in genere suddivide il range dinamico del segnale in un numero di intervalli potenza del due (2^n intervalli), in maniera tale che ogni singolo campione cadrà inevitabilmente in uno degli intervallini quantizzati e potrà così essere codificato digitalmente con n bit. I valori più ricorrenti di digitalizzazione attualmente usati vanno da un minimo di 8 bit per campione in campo telefonico (range dinamico del segnale suddiviso in 256 intervallini), fino a 20 e più bit per campione (range dinamico del segnale suddiviso in un milione e più di intervallini).

Naturalmente all'aumentare del numero dei bit per campione aumenta la fedeltà del segnale campionato alla forma d'onda originale e si riduce l'imprecisione introdotta dalla quantizzazione (rumore di quantizzazione), ma va osservato che già 8 bit per campione quasi basterebbero per soddisfare i vecchi criteri di alta fedeltà (HiFi). La serie numerica che così discende è detta segnale audio digitale e contiene in sé tutte le informazioni necessarie per ricostruire la forma elettrica originale, che a sua volta era l'immagine quasi perfetta della forma d'onda acustica che l'aveva originata. Volendo, si potrebbe quindi ora procedere alla sua conversione da digitale ad analogica con convertitori D/A, per riottenere la forma elettrica originale, che una volta inviata ad un altoparlante riproduce il suono originario.

Tutto questo processo costa in termini di introduzione di rumore vario, ma con le moderne tecniche questo può facilmente essere tenuto sotto una soglia in genere accettabile. Un ultimo passo è in genere fatto in questo settore. Il segnale audio digitale prodotto dai convertitori A/D è in genere codificato con un certo numero di bit per ogni campione e così una registrazione audio di 60 secondi campionata a 44.100 campioni al secondo, con ogni campione codificato con 16 bit, dà per risultato una sequenza di 44.100 campioni al secondo per 60 secondi, pari a 2.646.000 campioni, che vanno ora moltiplicati per 16 bit per campione, ottenendo una serie di 42.336.000 bit. Questo segnale audio digitale così codificato è detto “raw”, cioè grezzo. Un secondo livello di codifica è ora possibile, che consenta di comprimere le informazioni in sequenze numeriche più corte e che occupino meno bit per ogni secondo di conversione. Con le moderne tecniche di codifica si arriva a comprimere il suono in maniera molto efficace, come ad esempio negli standard MP3 o vorbis, tanto usati per diffondere musica e suoni in generale.

Note

^ Esempi: riproduttore di cassette, sintetizzatore, etc.
^ Nell'audio digitale esiste il problema della latenza dovuta alla doppia conversione analogico-digitale e digitale-analogica; essa ammonta in genere a pochi millisecondi e negli anni è diventata sempre più bassa, ma in base alle specifiche circostanze può essere problematica.
^ Più o meno lieve deformazione del suono trattato in analogico, specialmente in registrazione, che viene generalmente percepita come gradevole, utile a dare un timbro più "caldo" rispetto al suono originale ripreso dai microfoni.
^ http://www.musicoff.com/recording-studio/special/i-registratori-analogici-a-bobina-pt1/
^ http://www.uaudio.com/blog/analog-tape-recording-basics/

Bibliografia

Udo Zölzer, Digital Audio Signal Processing, 3rd Edition, John Wiley & Sons Inc, SBN: 978-1-119-83267-6, 2022.
Aurelio Uncini, Audio Digitale, McGraw-Hill Ed., ISBN 8838675007, 2005.
Sophocles J. Orfanidis, Introduction to Signal Processing, Prentice Hall, ISBN 9780132091725, 2009
Ben Milstead, Home recording, guida completa, Apogeo 2003
David M. Huber-Robert E. Runstein, Manuale della registrazione sonora, Hoepli, 1999
John Borwick, Sound Recording Practice, Oxford, 1994, Oxford University Press
Rabiner, Lawrence R., Gold, Bernard, Theory and Application of Digital Signal Processing, 1975, New Jersey, Prentice-Hall, Inc.
Michele Scarpiniti e Antonio Salini, Introduzione all'audio real-time: Basi teoriche e prime applicazioni, ISBN 979-8516660337, 2021.
Michele Scarpiniti, MATLAB® per l’Audio, ISBN 979-8709410411, 2021.