Audio digital

El audio digital es la codificación digital de una señal eléctrica que representa una onda sonora. Consiste en una secuencia de valores enteros y se obtiene de dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

El muestreo consiste en fijar la amplitud de la señal eléctrica a intervalos regulares de tiempo (tasa de muestreo). Para cubrir el espectro audible (20 a 20 000 Hz) suele bastar con tasas de muestreo de algo más de 40000 Hz (el estándar del CD de audio emplea una tasa un 10% mayor con objeto de contemplar el uso de filtros no ideales). Con 32000 muestras por segundo se tendría un ancho de banda similar al de la radio FM o una cinta de casete; es decir, permite registrar componentes de hasta 15 kHz, aproximadamente.

Para reproducir un determinado intervalo de frecuencias se necesita una tasa de muestreo de poco más del doble (según el Teorema de muestreo de Nyquist-Shannon). Por ejemplo en los CD, que reproducen señales de hasta 20 kHz de frecuencia, se emplea una tasa de muestreo de 44,1 kHz (frecuencia Nyquist de 22,05 kHz).

La cuantificación consiste en convertir el nivel de las muestras fijadas en el proceso de muestreo, normalmente un nivel de tensión, en un valor entero de rango finito y predeterminado. Por ejemplo, utilizando cuantificación lineal, una codificación lineal de 8 bits discriminará entre 256 niveles de señal equidistantes (2⁸). También se pueden hacer cuantificaciones no lineales, como es el caso de las cuantificaciones logarítmicas como la Ley Mu o la Ley A, que, a modo de ejemplo, aún usando 8 bits funcionan perceptualmente como 10 bits lineales para señales de baja amplitud en promedio, como la voz humana por ejemplo.

El formato más usado de audio digital PCM lineal es el del CD de audio: 44,1 kHz de tasa de muestreo y cuantificación lineal de 16 bits (que mide 65536 niveles de señal diferentes) y que, en la práctica permite registrar señales analógicas con componentes hasta los 20 kHz y con relaciones señal a ruido de más de 90 dB.

Ejemplo de reconstrucción de una señal de 14,7 kHz (línea gris discontinua) con solo cinco muestras. Cada ciclo se compone de solo 3 muestras a 44 100 muestras por segundo. La reconstrucción teórica resulta de la suma ponderada de la función de interpolación *g(t)* y sus versiones correspondientes desplazadas en el tiempo *g(t-nT)* con $-\infty <n<\infty \,\!$ , donde los coeficientes de ponderación son las muestras *x(n)*. En esta imagen cada función de interpolación está representada con un color (en total, cinco) y están ponderadas al valor de su correspondiente muestra (el máximo de cada función pasa por un punto azul que representa la muestra).

De acuerdo con el Teorema de muestreo de Nyquist, la tasa de muestreo, esto es, el número de muestras con las que se realiza el proceso de muestreo en una unidad de tiempo, determina exclusivamente la frecuencia máxima de los componentes armónicos que pueden formar parte del material a digitalizar.^[1] Satisfechos los requerimientos de Nyquist y un pequeño margen práctico, y al contrario de lo que es una creencia errónea muy extendida,^[2] no existe relación directa entre el sobremuestreo A/D (realizar el muestreo digital a una tasa mayor de la estrictamente necesaria para el ancho de banda de interés) y una mayor fidelidad en la posterior reconstrucción de la señal en todo el espectro (hasta la frecuencia de Nyquist).^[3]

Con objeto de evitar el fenómeno conocido como aliasing, es necesario eliminar todos los componentes de frecuencias que exceden la mitad de la tasa de muestreo, es decir, del límite de Nyquist, antes del proceso de digitalización (conversión A/D). En la práctica, estos componentes se atenúan fuertemente mediante un filtro activo analógico paso-bajo que se aplica a la señal analógica de interés antes de su digitalización y que para este objetivo se denomina filtro antialiasing. En el proceso de reconstrucción posterior (conversión D/A) de la reproducción se deberá aplicar en esencia el mismo filtrado analógico mediante un filtro que, empleado en este proceso, se denomina de reconstrucción.

Si bien, en la teoría es aplicable el teorema en aplicaciones reales es necesario aumentar la frecuencia de muestreo para obtener el resultado esperado, es decir, evitar el aliasing.

Tamaño de las muestras

El número de bits que conforman las muestras en un proceso determinado de cuantificación determina la relación señal a ruido máxima que debe tener la señal (la salida de un micrófono y, consecuentemente, el material sonoro que recoge, la salida de un máster analógico, etc.) que se pretende cuantificar y, por tanto, limita también el rango dinámico que debe tener para su cuantificación completa, de modo parecido a como la capacidad de un recipiente (bits por muestra) limita el volumen de líquido (rango del material sonoro a cuantificar) que puede contener.

Sea $b\,\!$ el número de bits con los que se cuantifican las muestras, la relación señal (para sinusoidal máxima que cubre todo el rango) a ruido de cuantificación teórica se obtiene en dB:^[4]

SQNR=10b\log(4)+10\log \left({\frac {3}{2}}\right)\approx 6,0206b+1,7609\,\!

Por tanto, una cuantificación de 16 bits permite un máximo teórico para la relación señal sinusoidal a ruido de cuantificación de 98,09 dB (122,17 dB para 20 bits, valor muy cercano al límite real que permite el ruido de Johnson-Nyquist (también conocido como ruido térmico) de los mejores convertidores A/D actuales). En la práctica, el límite de una señal analógica para que pueda ser cuantificada sin merma dinámica es, aproximadamente, el 90% del límite teórico.^[5] Por lo tanto, el límite que debe tener una señal (por ejemplo, la señal directa de un micrófono o la que resultara de un máster analógico) para ser cuantificada con seguridad con solo 14 bits es de unos 78 dB, aun cuando el límite teórico sea de 86,05 dB en este caso.

Una vez que la relación señal a ruido de cuantificación que permite un proceso de cuantificación dado excede la relación señal a ruido máxima del material sonoro que se pretende cuantificar, esta podrá ser cuantificada totalmente sin pérdidas en su rango dinámico. Pasado este umbral, de nada sirve aumentar el número de bits por muestra del proceso de cuantificación: no resultará en una conversión más fiel. Por ejemplo, una relación señal a ruido de cuantificación de 90 dB (una relación práctica que permiten sobradamente los 16 bits por muestra de un CD-Audio) es suficiente para cuantificar cualquier grabación musical normal, cuyo rango de intensidad sonora puede ir desde los 25 dB(SPL) del ruido de fondo de un estudio de grabación hasta los 115 dB(SPL), casi el umbral del dolor de la audición humana,^[6] en la posición del micrófono durante una grabación en dicho estudio.

El tamaño de las muestras necesario en un proceso de cuantificación digital se determina, por tanto, a partir del análisis del ruido de fondo y de la intensidad máxima del material sonoro a registrar. Aumentar por encima de lo necesario el tamaño de las muestras es solo un desperdicio de ancho de banda, especialmente en los formatos finales de distribución. No supone mejora alguna, ni siquiera mensurable, ya que solo serviría para registrar el ruido con más bits, es decir, más bits inútiles cuyo valor dependerá exclusivamente del azar o, según se ajuste la ganancia, para dejar los bits más significativos a cero en todas las muestras (o una combinación de ambas cosas). De modo parecido, un recipiente de capacidad mayor a la del líquido que se pretende depositar en él no mejora en medida alguna la calidad o cantidad de dicho líquido respecto al uso de un recipiente de menor capacidad siempre que ésta capacidad menor sea aún suficiente para el volumen del líquido. Dicho de otro modo, al contrario de lo que es una creencia errónea muy extendida,^[7] el tamaño de las muestras a emplear en una cuantificación depende del material sonoro que se pretende cuantificar y nada tienen que ver la fidelidad de la reconstrucción en la reproducción o los límites psicoacústicos humanos (por la percepción de dicha fidelidad) con esta determinación, por ejemplo. Si un material sonoro a digitalizar "cabe" en 10 bits por muestra, cuantificar a 14 bits (o 20) no hace más fiel su reconstrucción posterior ni, consecuentemente, es posible percibir diferencias subjetivas que no resulten de la sugestión.

Formatos de archivo de audio digital

Los archivos de audio digital almacenan toda la información que ocurra en el tiempo, el tamaño del archivo no varía así contenga 'silencio' o sonidos muy complejos^{[cita requerida]}. Existen muchos formatos de archivo de audio digital, que se pueden dividir en dos categorías: sin compresión y comprimidos, y dentro de los comprimidos, con pérdida y sin pérdida. Como se vio arriba el tamaño puede depender de la cantidad de canales que tenga el archivo y de la resolución (tasa de muestreo y profundidad).

Formatos PCM. Los formatos PCM, Pulse Coded Modulation, contienen toda la información que salió del convertidor analógico a digital sin ninguna omisión y por eso tienen la mejor calidad. Dentro de esta categoría se encuentran los formatos WAV, AIFF, SU, AU y RAW (crudo). La diferencia principal que tienen estos formatos es el encabezado, alrededor de 1000 bytes al comienzo del archivo^{[cita requerida]}.

Formatos DSD. Direct-Stream Digital™ es una marca registrada de Sony Corporation y Philips para referirse a la tecnología de registro y reconstrucción de señales de audiofrecuencia empleada inicialmente en los soportes de audio digital Super Audio CD y en la actualidad en los archivos digitales DSF y DFF. Utiliza el método PDM, Pulse Density Modulation, y a diferencia del PCM se basa en una profundidad de bits muy baja de tan solo 1 bit y una frecuencia de muestreo enorme de 2,8224 MHz. Aunque goza de relativo éxito comercial, las diferencias de calidad de sonido respecto al PCM en test ciegos no han sido concluyentes.

Formatos comprimidos. Para usar menos memoria que los archivos PCM existen formatos de sonido comprimidos, como por ejemplo el MP3, AAC y Ogg. Ciertos algoritmos de compresión descartan información que no es perceptible por el oído humano para lograr que el mismo fragmento de audio pueda ocupar en la memoria hasta la décima parte -o incluso menos- de lo que ocuparía un archivo PCM^{[cita requerida]}. La reducción en tamaño implica una pérdida de información y por esto a los formatos de este tipo se les llama formatos comprimidos con pérdida^{[cita requerida]}. Existen también formatos de archivo comprimido sin pérdida, entre los que se cuentan el FLAC y el Apple Lossless Encoder, cuyo tamaño suele ser de aproximadamente la mitad de su equivalente PCM^{[cita requerida]}.

Formatos descriptivos: Archivos MIDI. Este formato de archivos no es precisamente de audio digital, pero sí pertenece a las tecnologías de la informática musical. El archivo MIDI no almacena "sonido grabado", sino las indicaciones para que un sintetizador o cualquier otro dispositivo MIDI "interprete" una serie de notas u otras acciones (control de un mezclador, etc.)^{[cita requerida]}. Se puede comparar a una partitura, con los nombres de los instrumentos que hay que utilizar, las notas, tiempos y algunas indicaciones acerca de la interpretación.

Véase también

Referencias

↑ Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Archivado el 14 de junio de 2006 en Wayback Machine. Por qué más no es mejor. (inglés)
↑ Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".
↑ Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.
↑ Smith, J.O. (2007). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.
↑ Por la necesidad de añadir dither y contemplar un margen de error de ajuste (se deberá ajustar el nivel de la señal a cuantificar para que coincida, aproximadamente, la potencia del ruido de cuantificación con la del ruido base de la señal).
↑ Carl R. Nave. «Threshold of Hearing» (en inglés). Consultado el 2 de enero de 2012.
↑ Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.

Bibliografía

Proakis, J. G. y Manolakis, D. G. (1998). Tratamiento digital de señales. Principios, algoritmos y aplicaciones. Hertfordshire: PRENTICE HALL International (UK) Ltd. ISBN 84-8322-000-8.

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Audio digital.

Datos: Q173114
Multimedia: Digital audio / Q173114

[1] Teoría de muestreo (Dan Lavry de Lavry Engineering, Inc.): Archivado el 14 de junio de 2006 en Wayback Machine. Por qué más no es mejor. (inglés)

[2] Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Desenmascarando los mitos del audio (inglés). Véase "Mito 4: Necesitamos 96 kHz, no, mejor 192 kHz".

[3] Las técnicas de Noise-Shaping pueden mejorar la relación señal a ruido de parte del espectro hasta el límite de Nyquist pero siempre a cambio de empeorar esa relación en otra parte de ese mismo espectro. No hay nunca, por tanto, mejora global de ningún tipo en todo el espectro hasta la frecuencia de Nyquist por aumentar la tasa, incluso cuando este aumento se realiza con la intención de aplicar estas técnicas de modelado de ruido.

[4] Smith, J.O. (2007). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.

[5] Por la necesidad de añadir dither y contemplar un margen de error de ajuste (se deberá ajustar el nivel de la señal a cuantificar para que coincida, aproximadamente, la potencia del ruido de cuantificación con la del ruido base de la señal).

[6] Carl R. Nave. «Threshold of Hearing» (en inglés). Consultado el 2 de enero de 2012.

[7] Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.

[1]

[2]

[3]

[4]

[5]

[6]

[7]