Sonido Analógico Versus DigitalLa foto que podéis ver a continuación es el surco de un disco de vinilo aumentado 1000 veces mediante un microscopio electrónico (los trozos oscuros que se ven son las partículas de polvo). La belleza de esta imagen radica en que el “paisaje” que se nos muestra en realidad es la misma onda de sonido esculpida en un medio físico como lo es el vinilo.
Para entender como la onda de sonido es capaz grabarse en un medio físico simplemente hay que imaginarse a una aguja en forma de cuña que vibra con las ondas sonoras que pasan por ella. La idea es dirigir el sonido en vez de hacia un altavoz, hacia una superficie puntiaguda que arañe el disco trascribiendo fielmente el continuo de la onda que lo atraviesa.
La amplitud y frecuencia del sonido se codifica en la forma que toman los surcos, por lo que cuanto más alto se graba un disco menos tiempo efectivo de grabación hay, y de igual forma cuantos más sonidos graves tiene una canción mayor son también los espacios entre los surcos haciendo que el el tiempo de grabación también disminuya. Por eso precisamente no cabe el mismo minutaje en un LP de techno que en uno de música clásica, principalmente debido al tipo de sonido a codificar, así de simple.
En la siguiente imagen podemos ver como una aguja de un cabezal se desliza sobre el surco del disco grabado, realizando la operación inversa y vibrando según la forma de onda dibujada en los surcos y con ello, transmitiendo esa onda sonora al cabezal que la transformará en pulsos eléctricos, los cuales serán posteriormente amplificados generando el sonido audible por el oído humano.
Mucha gente se pregunta, cómo un vinilo es capaz de generar una salida en estéreo (2 canales) si el punto de lectura es uno (hay una única aguja). La respuesta es que el sonido estéreo se codifica en el mismo surco del vinilo debido a la forma del “valle” esculpido que hace que la aguja se desplace de un lado a otro del surco mientras se mueve, transmitiendo además de la onda las variaciones de ambos canales.
Debido a que existe un roce continuado entre la aguja y la superficie del vinilo el punto de contacto llega a temperaturas que rondan los 260ºC. Sin embargo es en un área tan pequeña que el calor total acumulado es mínimo produciéndose una disipación casi instantánea.
Veamos ahora cómo funciona el formato digital. En la siguiente imagen podemos ver la forma en la que el sonido se codifica en un CD o DVD donde los espacios en blanco (llamados “pits”) son en realidad agujeros realizados en la superficie de la lámina metálica por la incidencia del láser. La diferencia de tamaño de estos surcos es lo que permite crear los 2 símbolos necesarios para pasar al sistema binario – unos y ceros-.
Otra forma de codificación de sonido digital es la que se realiza en los discos duros donde los bits de información se almacenan mediante la polarización de sectores magnéticos, como podemos observar en la siguiente imagen.
Aprovechando que se han presentado las 3 formas más habituales de almacenamiento del sonido (vinilo, CD-Audio, disco duro), la siguiente pregunta que surge es si todas ellas lo almacenan con igual calidad o no. Siempre se ha dicho que el vinilo “suena mejor” que los sistemas de sonidos digitales. Veamos si tiene esto un fundamento científico o no.
Para ello vamos a analizar el sistema de sonido digital de mejor calidad, el formato WAV también conocido como CD-Audio o PCM, que es un sistema de digitalización que no tiene pérdidas. ¿es esto cierto?. Sí y no. Antes de nada es importante saber que cualquier sistema de digitalización del sonido introduce pérdidas en la señal almacenada por la misma definición de digitalización, que consiste en el muestreo y codificación de un número finito de puntos de la onda original. Sin embargo, una onda tiene infinitos puntos, por tanto cualquier intento de almacenar un número determinado de ellos obtendrá un resultado distinto al original, es decir que no será 100% fiel.
Pero entonces, ¿por qué se dice que el sistema WAV es audio sin pérdidas? La respuesta es que para el oído humano sí es un sistema sin pérdidas, debido a que nosotros tenemos un rango de escucha que va desde los 20Hz a los 20KHz, por lo tanto, siguiendo el teorema de Nyquist, para escuchar fielmente una onda digitalizada esta tiene que estar muestreada al menos al doble de la frecuencia máxima, es decir 20KHz * 2 = 40KHz, y esa es justamente la razón por la que el formato WAV no introduce pérdidas para el oído humano ya que trabaja a 44KHz (44.000 muestras por segundo).
En la imagen superior podemos ver en qué consiste el proceso de muestreo o cuantificación de la onda, donde a partir de el modelo original intentamos reconstruirla mediante la generación de puntos sobre su trazo. En la imagen inferior se aprecia como la fidelidad de la reconstrucción depende también del número de bits utilizado (bitrate).
Lo correcto por tanto sería decir que el formato WAV (CD-Audio o PCM) no introduce pérdidas para el oído humano. Por curioso que parezca para animales como los perros que tienen un rango de sensibilidad mayor a los 20KHz sí que introduce pérdidas (aunque no sean ellos los mayores melómanos que conozco). Actualmente están surgiendo nuevos formatos como el DVD-Audio que permite un muestro de hasta 192KHz, muy superior a cualquier percepción sonora de un ser vivo.
El concepto de la tasa de muestreo es denominado técnicamente como Respuesta a Frecuencia (Frequency Response), sin embargo hay otro concepto importante a tener en cuenta cuando hablamos de calidad del sonido que es el Rango Dinámico (Dynamic Range).
El Rango Dinámico permite identificar la amplitud mínima y máxima de la onda que se almacena, es decir comprende desde el volumen mínimo que permite diferenciar el sonido reproducido del sonido de fondo (SPL), hasta el volumen máximo que es capaz de reproducir sin causar distorsión. El oído humano soporta desde 0dB SPL hasta 140dB SPL.
Cuando muestreamos una onda sonora para un sistema WAV a 44KHz el Rango Dinámico viene dado por el número de bits usado para codificar esa información. Normalmente son 16b lo que nos da un rango dinámico de 96dB SPL, sin embargo los WAV’s preparados para masterización en el estudio se codifican a 24b ya que con ese valor somos capaces de cuantificar hasta 144dB SPL, superando el rango de dinámico que el oído humano es capaz de asimilar.
Si es importante conocer los límites teóricos bien es cierto que nunca van a poder ser disfrutados en la reproducción estos 140dB SPL ya que las tolerancias de los componentes electrónicos usados en los equipos de escucha, hacen que estos no sean perfectos y que se introduzca ruido de fondo haciendo que el Rango Dinámico máximo ronde los 100dB SPL.
¡Aclaración! Es importante no confundir los dB’s del rango dinámico con el volumen final al que puede reproducir una canción. El rango dinámico de un medio digital o analógico marca los sonidos que este puede contener y el volumen final lo que marca es la amplificación que se ha realizado de esos sonidos contenidos dentro del rango dinámico. Es decir, que el sonido de un vinilo o de un CD si está bien grabado puede amplificarse de la misma manera.
De igual forma que en digital a la hora de codificarlo en el vinilo existen otras limitaciones como la amplitud del surco o la distancia entre surcos que hace que no se pueda pasar de los 90dB SPL de rango dinámico. Eso quiere decir que el rango dinámico de un fichero WAV codificado con 24b (144dB SPL) es mayor que el rango dinámico que es capaz de codificar el vinilo (90dB SPL) aunque realmente esto no importa ya que a la hora de reproducir el sonido tanto los sistemas digitales como los analógicos introducen ruido de fondo que hace que los límites sean inferiores al teórico.
Curiosamente esta imperfección de los materiales (la aguja, la superficie del vinilo) es lo que se denomina la “calidez del vinilo”, y consiste en un ruido de fondo -casi imperceptible- que se suma al original haciéndolo algo más imperfecto, es decir algo más humano. (¡ojo! no confundir este sonido continuo con el crepitar del vinilo que es debido a surcos no definidos correctamente).
Podríamos resumir diciendo que la calidad de la música grabada en vinilo equivale a un formato digital WAV a 44KHz y a 24b (144dB SPL), ya que como hemos comentado superamos los 2 límites del oído humano. Por un lado la frecuencia de muestro necesaria (40KHz) y por el otro el rango dinámico (140dB SPL).
Es decir, que con la ciencia en la mano podemos decir que el vinilo no suena mejor que un WAV ya que ambos contienen el sonido almacenado con igual detalle, sin embargo el vinilo presenta el sonido con una mayor calidez debido principalmente a que los elementos que reproducen el sonido (aguja, cabezal, superficie del vinilo y etapa amplificadora) introducen una serie de armónicos extra al sonido que lo dotan de mayor riqueza y cuerpo. Es decir que el “sentimiento del vinilo” no se basa en que el vinilo suena mejor que el digital sino que suena distinto debido a las imperfecciones de los elementos que entran en juego durante la reproducción del sonido (más imperfecto implica un sonido más humano). Notar también que el tacto con el disco físico hace que entren en juego otros sentidos aumentando la sensación de la escucha.
Otra cosa es cuando hablamos del formato mp3 que sí introduce pérdidas ya que se aplican algoritmos de compresión. Para entender bien la razón de la existencia del mp3 hay que saber primero que el bitrate de un fichero WAV es de 1’4Mbps. El cálculo es sencillo: (frecuencia de muestreo) * (bits de codificación) * (número de canales -2 estéreo-) = 44KHz * 16b * 2 = 1’4Mbps. Este valor hace que los ficheros finales ocupen mucho espacio (~70MB) haciendo que la transferencia por Internet fuera lenta y su difusión difícil. Por esto mismo se ideó un formato comprimido que pudiera dar una calidad similar (para el público general) pero reduciendo su tamaño. Obviamente la calidad del formato mp3 dependerá del bitrate final siendo 192kbps, 256kbps y 320kbps los más usados.
El formato de mp3 con mayor calidad 320kbps que ocupa casi 5 veces menos que el formato WAV se está estableciendo como el estándar ‘de facto’ debido a que las pérdidas de calidad del sonido aún habiéndolas son prácticamente imperceptibles para la mayoría de las personas. Para entender cómo es capaz de crearse un formato que de una calidad muy similar ocupando 5 veces menos hay que entender cómo funcionan los mp3 encoders.
Los mp3 encoders aplican una técnica denominada análisis psicoacústico. Este análisis consiste en generar una especie de “oído humano digítal”, sobre el cual harán pasar el sonido del WAV original y eliminarán todos aquellos detalles o sonidos que piensan que un oído humano real no llegará a captarlos jamás. Algunos ejemplos son:
- Eliminar sonidos fuera del rango de respuesta frecuencial del oído humano 20KHz – 20KHz
- En caso de que haya un sonido muy alto en una banda de frecuencia determinada eliminar otros sonidos ya que el oído no será capaz de distinguir el detalle de los sonidos “pequeños”
- Si el sonido es constante aplicar algoritmos de compresión comunes (similares a zip y rar)
En la imagen superior vemos una espectrometría realizada dentro del proceso de análisis psicoacústico de una canción donde se aprecian las diferentes bandas de frecuencia (eje Y) y la energía asociada a ellas representada en colores (colores fríos denotan menor energía) durante la duración de la misma (eje X).
Como colofón final me gustaría que el lector pensara que aunque nosotros oímos la música como forma onda analógica (la misma que hace vibrar nuestro tímpano), cuando ésta llega al cerebro la información es transformada en pulsos eléctricos. Es decir, que nuestro propio cerebro realiza un proceso de “digitalización” del sonido transformándolo en quantos de información que puedan ser transmitidos por la corteza cerebral y otras partes del cerebro interno. Por tanto, en el proceso de escucha de cualquier canción existen tanto partes analógicas como digitales que se van alternando continuamente incluso dentro de nosotros mismos.
Sobre los autores: Este artículo ha sido creado por David Gascón (Ingeniero Informático) en colaboración con David Meiser, Ingeniero Informático y Productor de música electrónica.
Código:
http://blogs.heraldo.es/ciencia/?p=2814