Menú
Está libre
registro
casa  /  POR / Síntesis y reconocimiento de voz. Soluciones modernas

Síntesis y reconocimiento de voz. Soluciones modernas

La compresión es uno de los temas más míticos de la producción sonora. Dicen que Beethoven incluso asustó a los hijos de sus vecinos :(

Bueno, en realidad, aplicar compresión no es más difícil que usar distorsión, lo principal es entender cómo funciona y tener un buen control. Lo que estamos juntos ahora y vemos.

¿Qué es la compresión de audio?

Lo primero que hay que entender antes de la preparación es la compresión. trabajar con rango dinámico de sonido... Y, a su vez, nada más que la diferencia entre los niveles de señal más altos y más bajos:

Entonces, la compresión es la compresión del rango dinámico.... Si, simplemente compresión de rango dinámico, o en otras palabras disminuya el nivel de las partes ruidosas de la señal y aumente el volumen de las... No más.

Entonces, ¿puede preguntarse razonablemente por qué tanta exageración está conectada? ¿Por qué todo el mundo habla de recetas para la configuración adecuada del compresor, pero nadie las comparte? ¿Por qué, a pesar de la gran cantidad de complementos geniales, todavía se usan modelos caros de compresores antiguos en muchos estudios? ¿Por qué algunos productores usan compresores en configuraciones extremas, mientras que otros no los usan en absoluto? ¿Y cuál de ellos tiene razón después de todo?

Tareas de compresión

Las respuestas a estas preguntas se encuentran en el plano de la comprensión del papel de la compresión en el trabajo con el sonido. Y ella permite:

  1. Enfatizar el ataque sonido, hazlo más pronunciado;
  2. "Encajar" partes de instrumentos individuales en la mezclaagregándoles poder y "peso";
  3. Mejora los grupos de instrumentos o una mezcla completa, un monolito tan único;
  4. Resolver conflictos entre herramientas usando sidechain;
  5. Corrija las fallas del vocalista o músicosalineando su dinámica;
  6. Con un cierto escenario actuar como un efecto artístico.

Como puede ver, este proceso creativo no es menos significativo que, digamos, crear melodías o introducir timbres interesantes. Además, cualquiera de las tareas anteriores se puede resolver utilizando 4 parámetros principales.

Los principales parámetros del compresor.

A pesar de la gran cantidad de modelos de software y hardware de compresores, toda la "magia" de la compresión ocurre cuando ajuste correcto parámetros principales: umbral, relación, ataque y liberación. Considérelos con más detalle:

Umbral o umbral, dB

Este parámetro le permite establecer el valor a partir del cual funcionará el compresor (es decir, comprimir la señal de audio). Entonces, si establecemos el umbral en -12dB, el compresor solo funcionará en aquellos lugares del rango dinámico que excedan este valor. Si todo nuestro sonido es más bajo que -12db, el compresor simplemente lo dejará pasar por sí mismo sin afectarlo de ninguna manera.

Relación o relación de compresión

El parámetro de relación determina la fuerza con la que se comprimirá la señal que supere el umbral. Un poco de matemáticas para completar la imagen: digamos que configuramos un compresor con un umbral de -12dB, una relación de 2: 1 y lo alimentamos con un bucle de batería, en el que el volumen de bombo es -4dB. ¿Cuál será el resultado del compresor en este caso?

En nuestro caso, el nivel del barril supera el umbral en 8dB. Esta diferencia de acuerdo con la relación se comprimirá a 4dB (8dB / 2). Combinado con la parte no procesada de la señal, esto dará como resultado que el volumen del bombo sea de -8db después de ser procesado por el compresor (umbral -12dB + señal comprimida de 4dB).

Ataque, ms

Este es el tiempo después del cual el compresor reaccionará si se excede el umbral. Es decir, si el tiempo de ataque es superior a 0 ms - el compresor comienza a comprimir exceder la señal de umbral no instantáneamente, sino después de un tiempo específico.

Liberación o recuperación, ms

Lo opuesto a un ataque: el valor de este parámetro le permite especificar cuánto tiempo después de que el nivel de la señal vuelva por debajo del umbral el compresor dejará de comprimir.

Antes de continuar, le recomiendo encarecidamente que tome una muestra conocida, cuelgue cualquier compresor en su canal y experimente con los parámetros anteriores durante 5-10 minutos para fijar el material de forma segura.

Todas otros parámetros son opcionales... Pueden diferir en los diferentes modelos de compresor, razón por la cual los productores utilizan diferentes modelos para cualquier propósito específico (por ejemplo, un compresor para voces, otro para el grupo de batería, el tercero para el canal maestro). No me detendré en estos parámetros en detalle, solo daré información general para entender de qué se trata:

  • Rodilla o rodilla (rodilla dura / blanda)... Este parámetro determina qué tan rápido se aplicará la relación: fuerte a lo largo de la curva o suave. Tenga en cuenta que en el modo Soft Knee, el compresor no funciona en línea recta, sino que arranca suavemente (en la medida en que sea apropiado cuando hablamos de milisegundos) para comprimir el sonido. ya antes del valor umbral... Soft Knee se usa a menudo para procesar grupos de canales y la mezcla general (ya que funciona de manera invisible), y para enfatizar el ataque y otras características. instrumentos individuales - rodilla dura;
  • Modo de respuesta: pico / RMS... El modo Peak se justifica cuando necesita limitar estrictamente las ráfagas de amplitud, así como en señales con una forma compleja, cuya dinámica y legibilidad deben transmitirse completamente. El modo RMS es muy suave con el sonido, lo que le permite engrosarlo manteniendo el ataque;
  • Mirar hacia el futuro... Este es el tiempo durante el cual el compresor sabrá lo que necesitará. Una especie de análisis preliminar de las señales entrantes;
  • Maquillaje o ganancia... Un parámetro que le permite compensar la disminución de volumen como resultado de la compresión.

Primero y el consejo más importante, que elimina todas las preguntas adicionales sobre la compresión: si a) entendió el principio de compresión, b) sabe firmemente cómo afecta este o aquel parámetro al sonido, yc) logró probar varios diferentes modelosno necesitas ningún consejo.

Hablo absolutamente en serio. Si leyó detenidamente esta publicación, experimentó con el compresor estándar de su DAW y uno o dos complementos, pero aún no entendió en qué casos necesita establecer valores de ataque grandes, qué proporción usar y en qué modo procesar el señal original, entonces continuará buscando en Internet recetas preparadas, aplicándolas sin pensar en cualquier lugar.

Recetas de ajuste fino del compresor es como recetas para afinar una reverberación o un coro: carece de sentido y no tiene nada que ver con la creatividad. Por lo tanto, repito persistentemente la única receta correcta: ármate con este artículo, buenos auriculares de monitorización, un complemento para el control visual de la forma de onda y pasa la noche con un par de compresores.

¡Tomar acción!

, Reproductores multimedia

Los discos, especialmente los más antiguos que se grabaron y produjeron antes de 1982, tenían muchas menos probabilidades de mezclarse y hacerse más ruidosos. Reproducen música natural con un rango dinámico natural que se conserva en el disco y se pierde en la mayoría de los estándares. formatos digitales o formatos de alta definición.

Por supuesto, hay excepciones: escuche el álbum reciente de Steven Wilson de MA Recordings o Reference Recordings y escuchará lo bueno que puede ser el sonido digital. Pero esto es raro, la mayoría de las grabaciones modernas son altas y comprimidas.

La compresión de música ha sido objeto de serias críticas últimamente, pero yo diría que casi todas tus grabaciones favoritas están comprimidas. Algunos de ellos son menos, otros más, pero aún están comprimidos. La compresión de rango dinámico es un chivo expiatorio del sonido musical deficiente, pero la música altamente comprimida no es una tendencia nueva: escuche los álbumes de Motown de los 60. Lo mismo puede decirse de las obras clásicas de Led Zeppelin o de los álbumes más jóvenes de Wilco y Radiohead. La compresión de rango dinámico reduce la relación natural entre los sonidos más altos y más bajos en una grabación, por lo que los susurros pueden ser tan fuertes como los gritos. Es bastante difícil encontrar música pop de los últimos 50 años que no se haya comprimido.

Recientemente tuve una agradable charla con el fundador y editor de Tape Op, Larry Crane, sobre los aspectos buenos, malos y malos de la compresión. Larry Crane ha trabajado con bandas y artistas como Stefan Marcus, Cat Power, Sleater-Kinney, Jenny Lewis, M. Ward, The Go-Betweens, Jason Little, Eliot Smith, Quasi y Richmond Fontaine. ¡También dirige Jackpot Recording Studio! en Portland, Oregon, hogar de The Breeders, The Decemberists, Eddie Vedder, Pavement, R.E.M., She & Him y muchos, muchos otros.

Como ejemplo de un sonido sorprendentemente antinatural, pero aún así grandes canciones, cito el álbum de Spoon They Want My Soul, lanzado en 2014. Crane se ríe y dice que lo escucha en el auto porque suena genial allí. Lo que nos lleva a otra respuesta a la pregunta de por qué se comprime la música: porque la compresión y la "claridad" extra hacen que sea mejor escucharla en lugares ruidosos.

Larry Crane en el trabajo. Foto de Jason Quigley

Cuando la gente dice que le gusta el sonido de una grabación de audio, creo que le gusta la música, como si sonido y música fueran términos inseparables. Pero para mí, diferencio estos conceptos. Desde el punto de vista de un amante de la música, el sonido puede ser áspero y crudo, pero eso no importará a la mayoría de los oyentes.

Muchos tienen prisa por acusar a los ingenieros de masterización de abusar de la compresión, pero la compresión se aplica directamente durante la grabación, durante la mezcla y solo entonces durante la masterización. Si no estuvo presente personalmente en cada una de estas etapas, no podrá saber cómo sonaron los instrumentos y las voces al comienzo del proceso.

Crane estaba en llamas: "Si un músico quiere deliberadamente hacer que el sonido sea loco y distorsionado como los discos de Guided by Voices, entonces no hay nada de malo en eso: el deseo siempre supera la calidad del sonido". La voz del intérprete casi siempre está comprimida, lo mismo ocurre con el bajo, la batería, las guitarras y los sintetizadores. La compresión mantiene el volumen de las voces en el nivel deseado a lo largo de la canción o se destaca ligeramente del resto de los sonidos.

La compresión correcta puede hacer que la batería suene más animada o intencionalmente extraña. Para que la música suene bien, debes poder usar los instrumentos necesarios para esto. Es por eso que se necesitan años para descubrir cómo usar la compresión y no exagerar. Si el ingeniero de mezcla ha comprimido demasiado la parte de guitarra, el ingeniero de masterización ya no podrá restaurar completamente las frecuencias faltantes.

Si los músicos quisieran que escucharas música que no pasó por las etapas de mezcla y masterización, la lanzarían en los estantes de las tiendas directamente desde el estudio. Crane dice que las personas que crean, editan, mezclan y dominan la música no están ahí para perderse en los pies de los músicos; han estado ayudando a los artistas desde el principio, durante más de un siglo.

Estas personas son parte del proceso de creación que produce increíbles obras de arte. Crane agrega: "No necesitas una versión de 'Dark Side of the Moon' que no haya pasado por la mezcla y masterización". Pink Floyd lanzó la canción de la forma en que querían escucharla.

Pensemos en la pregunta: ¿por qué deberíamos subir el volumen? Para escuchar sonidos suaves que no son audibles en nuestro entorno (por ejemplo, si no puede escuchar en voz alta, si hay ruidos extraños en la habitación, etc.). ¿Es posible amplificar los sonidos suaves sin tocar los fuertes? Resulta que puedes. Esta técnica se llama Compresión de rango dinámico (DRC). Para hacer esto, debe cambiar el volumen actual constantemente: amplificar los sonidos bajos, los fuertes, no. La ley más simple de variación del volumen es lineal, es decir el volumen cambia de acuerdo con la ley output_loudness \u003d k * input_loudness, donde k es la relación de compresión del rango dinámico:

Figura 18. Compresión de rango dinámico.

Cuando k \u003d 1, no se realizan cambios (la sonoridad de salida es igual a la de entrada). Tenedor< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k > 1: el volumen disminuirá y el rango dinámico aumentará.

Veamos los gráficos de sonoridad (k \u003d 1/2: compresión de DD a la mitad):

Figura 19. Gráficos de sonoridad.

Como puede ver en el original, había sonidos muy bajos, 30 dB por debajo del nivel de diálogo, y sonidos muy fuertes, 30 dB por encima del nivel de diálogo. Entonces el rango dinámico fue de 60dB. Después de la compresión, los sonidos fuertes son solo 15dB más altos y los sonidos silenciosos son 15dB más bajos que el nivel de diálogo (el rango dinámico ahora es 30dB). Por lo tanto, los sonidos fuertes se volvieron mucho más silenciosos y los silenciosos, mucho más fuertes. ¡No hay desbordamiento!

Ahora pasemos a los histogramas:

Figura 20. Ejemplo de compresión.

Como puedes ver claramente, con amplificación hasta + 30dB, la forma del histograma está bien conservada, lo que significa que los sonidos fuertes se mantienen bien pronunciados (no llegan al máximo y no se cortan, como ocurre con la simple amplificación ). Esto produce sonidos suaves. El histograma muestra esto mal, pero la diferencia es muy perceptible de oído. La desventaja de este método son los mismos saltos de volumen. Sin embargo, el mecanismo de su aparición difiere de los saltos en el volumen que surgen del recorte, y su naturaleza es diferente: aparecen principalmente con una amplificación muy fuerte de sonidos silenciosos (y no cuando se recortan sonidos fuertes, como con la amplificación convencional). Un nivel excesivo de compresión conduce a un aplanamiento de la imagen del sonido; todos los sonidos tienden a tener el mismo volumen e inexpresividad.

Una fuerte amplificación de sonidos silenciosos puede resultar en ruidos de grabación. Por tanto, se aplica un algoritmo ligeramente modificado en el filtro para que el nivel de ruido suba menos:

Figura 21. Aumento del volumen sin aumentar el ruido.

Aquellos. a un nivel de sonoridad de -50dB, la función de transferencia se inflexiona y el ruido se amplifica menos (línea amarilla). En ausencia de tal inflexión, el ruido será mucho más fuerte (línea gris). Esta simple modificación reduce significativamente la cantidad de ruido incluso a niveles de compresión muy altos (en la figura, compresión 1: 5). El nivel "DRC" en el filtro establece el nivel de ganancia para sonidos silenciosos (a un nivel de -50dB), por lo tanto. el nivel de compresión de 1/5 que se muestra en la figura corresponde al nivel de + 40dB en la configuración del filtro.

La segunda parte de la serie está dedicada a las funciones de optimización del rango dinámico de imágenes. En él le diremos por qué se necesitan tales soluciones, considere varias opciones para su implementación, así como sus ventajas y desventajas.

Abraza la inmensidad

Idealmente, la cámara debería capturar la imagen del mundo circundante tal como la percibe una persona. Sin embargo, debido a que los mecanismos de "visión" de la cámara y del ojo humano son significativamente diferentes, existen una serie de limitaciones que impiden que se cumpla esta condición.

Uno de los problemas a los que antes se enfrentaban los usuarios de cámaras de película y los propietarios de cámaras digitales es la incapacidad de capturar adecuadamente escenas con una gran diferencia de iluminación sin utilizar dispositivos especiales y / o técnicas de filmación especiales. Las peculiaridades del aparato visual humano hacen posible percibir los detalles de escenas de alto contraste igualmente bien en áreas iluminadas y oscuras. Desafortunadamente, el sensor de la cámara no siempre puede capturar la imagen tal como la vemos.

Cuanto mayor sea la diferencia de brillo en la escena fotografiada, mayor será la probabilidad de pérdida de detalle en las luces y / o sombras. Como resultado, en lugar de un cielo azul con nubes exuberantes, solo aparece una mancha blanquecina en la imagen, y los objetos ubicados en las sombras se convierten en siluetas oscuras indistintas o se fusionan por completo con el entorno circundante.

En la fotografía clásica, para evaluar la capacidad de una cámara (o un medio en el caso de las cámaras de película) para transmitir un cierto rango de brillo, se utiliza el concepto latitud fotográfica(consulte la barra lateral para obtener más detalles). En teoría, la latitud fotográfica de las cámaras digitales está determinada por la capacidad de dígitos del convertidor de analógico a digital (ADC). Por ejemplo, cuando se utiliza un ADC de 8 bits, teniendo en cuenta el error de cuantificación, el valor teóricamente alcanzable para la latitud fotográfica será 7 EV, para un ADC de 12 bits - 11 EV, etc. Sin embargo, en dispositivos reales, el rango dinámico de imágenes es ael mismo máximo teórico debido a la influencia de varios tipos de ruido y otros factores.

Las grandes variaciones en los niveles de brillo representan un severo
Problema al tomar fotografías. En este caso, las capacidades de la cámara
no fue suficiente para transferir adecuadamente la mayoría
áreas brillantes de la escena y, como resultado, en lugar de un área azul
el cielo (marcado con un trazo) tiene una mancha blanca

El valor máximo de brillo que puede registrar un sensor fotosensible está determinado por el nivel de saturación de sus celdas. El valor mínimo depende de varios factores, incluido el ruido térmico de la matriz, el ruido de transferencia de carga y el error de ADC.

También vale la pena señalar que la latitud fotográfica de la misma cámara digital puede variar según el valor de sensibilidad establecido en la configuración. El rango dinámico máximo se puede alcanzar cuando se establece la denominada sensibilidad base (correspondiente al valor numérico mínimo posible). A medida que aumenta el valor de este parámetro, el rango dinámico disminuye debido al aumento del nivel de ruido.

Latitud fotográfica modelos modernos Las cámaras digitales con sensores grandes y ADC de 14 o 16 bits oscilan entre 9 y 11 EV, significativamente más que las películas negativas en color de 35 mm (4 a 5 EV en promedio). Por tanto, incluso las cámaras digitales relativamente económicas tienen un ancho fotográfico suficiente para transmitir adecuadamente la mayoría de los sujetos típicos de la fotografía de aficionados.

Sin embargo, existe otro tipo de problema. Está relacionado con las restricciones impuestas por los estándares de grabación existentes. imágenes digitales... Utilizando el formato JPEG con 8 bits por canal de color (que ahora se ha convertido en el estándar de facto para la grabación de imágenes digitales en la industria informática y la tecnología digital), ni siquiera teóricamente es posible guardar una imagen con un ancho fotográfico de más de 8 EV.

Supongamos que el ADC de una cámara produce una imagen con una resolución de 12 o 14 bits, que contiene detalles distinguibles tanto en luces como en sombras. Sin embargo, si la latitud fotográfica de esta imagen supera los 8 EV, en el proceso de conversión a un formato estándar de 8 bits sin acciones adicionales (es decir, simplemente descartando dígitos "extra"), parte de la información registrada por el Se perderá el sensor fotosensible.

Rango dinámico y latitud fotográfica

En pocas palabras, el rango dinámico se define como la relación entre el valor máximo del brillo de la imagen y su valor mínimo. En la fotografía clásica, el término latitud fotográfica se usa tradicionalmente, que esencialmente significa lo mismo.

El ancho del rango dinámico se puede expresar en términos de una relación (por ejemplo, 1000: 1, 2500: 1, etc.), pero la mayoría de las veces se usa una escala logarítmica para esto. En este caso, se calcula el valor del logaritmo decimal de la relación entre el brillo máximo y su valor mínimo, y después del número, se coloca una letra mayúscula D (¿de la densidad en inglés? - densidad), ¿con menos frecuencia? - el abreviatura OD (de la densidad óptica inglesa? - densidad óptica). Por ejemplo, si la relación entre el valor máximo de brillo y el valor mínimo de un dispositivo es 1000: 1, entonces el rango dinámico será 3.0 D:

Para medir la latitud fotográfica, tradicionalmente se utilizan las llamadas unidades de exposición, indicadas por la abreviatura EV (del inglés valores de exposición; los profesionales a menudo las llaman "paradas" o "pasos"). Es en estas unidades donde generalmente se establece la cantidad de compensación de exposición en la configuración de la cámara. Aumentar el valor de latitud fotográfica en 1 EV equivale a duplicar la diferencia entre los niveles de brillo máximo y mínimo. Así, la escala EV también es logarítmica, pero en este caso, se utiliza el logaritmo en base 2 para calcular los valores numéricos. Por ejemplo, si algún dispositivo brinda la capacidad de capturar imágenes, la relación entre el brillo máximo y el valor mínimo alcanza 256: 1, entonces la latitud fotográfica es 8 EV:

La compresión es un compromiso inteligente

La forma más eficaz de conservar toda la información de la imagen capturada por el sensor sensible a la luz de la cámara es grabar imágenes en formato RAW... Sin embargo, esta función no está disponible en todas las cámaras y no todos los fotógrafos aficionados están preparados para realizar un trabajo minucioso en la selección de ajustes individuales para cada toma.

Para reducir la probabilidad de pérdida de detalle en imágenes de alto contraste convertidas dentro de la cámara a JPEG de 8 bits, en los dispositivos de muchos fabricantes (no solo compactos, sino también SLR), se han introducido funciones especiales que le permiten comprimir el rango dinámico de imágenes almacenadas sin la intervención del usuario. Al reducir el contraste general y la pérdida de una parte insignificante de la información de la imagen original, estas soluciones le permiten guardar en formato JPEG de 8 bits los detalles en luces y sombras, registrados por el sensor fotosensible del dispositivo, incluso si el rango dinámico de la imagen original era más amplio que 8 EV.

Uno de los pioneros en el desarrollo de esta dirección fue la empresa HP. Lanzada en 2003, la cámara digital HP Photosmart 945 introdujo la primera tecnología HP Adaptive Lightling del mundo, que compensa automáticamente la poca luz en las áreas oscuras de las imágenes y, por lo tanto, conserva los detalles de las sombras sin el riesgo de sobreexposición (lo cual es muy importante cuando se dispara con alto contraste escenas). El algoritmo HP Adaptive Lightling se basa en los principios establecidos por el científico inglés Edwin Land en la teoría RETINEX de la percepción visual humana.

Menú HP Adaptive Lighting

¿Cómo funciona la iluminación adaptativa? Después de obtener una imagen de 12 bits de la imagen, se extrae una imagen monocromática auxiliar, que en realidad es un mapa de luz. Al procesar la imagen, este mapa se utiliza como una máscara que le permite ajustar el grado de influencia de un filtro digital bastante complejo en la imagen. Así, en las áreas correspondientes a los puntos más oscuros del mapa, el impacto en la imagen de la imagen futura es mínimo, y viceversa. Este enfoque le permite mostrar detalles en las sombras iluminando selectivamente estas áreas y, en consecuencia, reduciendo el contraste general de la imagen resultante.

Tenga en cuenta que cuando la iluminación adaptable está habilitada, la imagen capturada se procesa como se describe anteriormente antes de que la imagen final se escriba en un archivo. Todas las operaciones descritas se realizan automáticamente y el usuario solo puede seleccionar uno de los dos modos de iluminación adaptable (exposición baja o alta) en el menú de la cámara, o deshabilitar esta función.

En términos generales, muchas funciones específicas de las cámaras digitales modernas (incluidos los sistemas de reconocimiento facial discutidos en el artículo anterior) son una especie de subproductos o productos de conversión de proyectos de investigación que originalmente se llevaron a cabo para clientes militares. Cuando se trata de funciones de optimización de rango dinámico de imágenes, uno de los proveedores más conocidos de este tipo de soluciones es Apical. Los algoritmos creados por sus empleados, en particular, son la base del trabajo de la función SAT (Tecnología de ajuste de sombras), que se implementa en varias cámaras digitales Olympus. Brevemente, el funcionamiento de la función SAT se puede describir de la siguiente manera: en base a la imagen original de la imagen, se crea una máscara que corresponde a las áreas más oscuras, y luego el valor de exposición se corrige automáticamente para estas áreas.

Sony también ha adquirido una licencia para utilizar los desarrollos de Apical. Muchas cámaras compactas Cyber-shot y DSLR de la serie alpha tienen una función denominada Optimizador de rango dinámico (DRO).

Fotos tomadas con la HP Photosmart R927 con (arriba) desactivado
e iluminación adaptativa activada

La corrección de una instantánea cuando DRO está activado se realiza durante el procesamiento inicial de la imagen (es decir, antes de grabar el archivo JPEG terminado). En la versión básica, el visualizador tiene una configuración de dos etapas (en el menú puede seleccionar el modo estándar o avanzado de su funcionamiento). Cuando selecciona el modo Estándar, basado en un análisis de la imagen de la imagen, el valor de exposición se corrige y luego se aplica una curva tonal a la imagen para igualar el balance general. El modo avanzado utiliza un algoritmo más sofisticado que le permite realizar correcciones tanto en sombras como en luces.

Los desarrolladores de Sony trabajan constantemente para mejorar el algoritmo DRO. Por ejemplo, en la cámara SLR a700, cuando activa el modo DRO avanzado, puede seleccionar una de las cinco opciones de corrección. Además, se implementa la capacidad de guardar tres variantes de una imagen a la vez (una especie de horquillado) con diferentes configuraciones de DRO.

Muchas cámaras digitales Nikon están equipadas con D-Lighting, que también se basa en algoritmos Apical. Sin embargo, a diferencia de las soluciones descritas anteriormente, D-Lighting se implementa como un filtro para procesar imágenes previamente guardadas usando una curva tonal, cuya forma le permite hacer las sombras más claras, manteniendo el resto de la imagen sin cambios. Pero dado que en este caso se procesan imágenes de 8 bits ya terminadas (y no la imagen original del fotograma, que tiene una mayor profundidad de bits y, en consecuencia, un rango dinámico más amplio), las posibilidades de D-Lighting son muy limitadas. El usuario puede obtener el mismo resultado procesando la imagen en un editor gráfico.

Al comparar los fragmentos ampliados, es claramente visible que las áreas oscuras de la imagen original (izquierda)
más claro cuando la iluminación adaptable está habilitada

También hay una serie de soluciones basadas en otros principios. Así, en muchas cámaras de la familia Lumix de la empresa Panasonic (en particular, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.), se implementa la función de Exposición Inteligente, que es una parte integral del sistema Control inteligente de disparo automático iA. La Exposición Inteligente se basa en el análisis automático de la imagen y la corrección de las áreas oscuras de la imagen para evitar la pérdida de detalle en las sombras, así como (si es necesario) comprimir el rango dinámico de escenas de alto contraste.

En algunos casos, el funcionamiento de la función de optimización del rango dinámico implica no solo determinadas operaciones para procesar la imagen original de la imagen, sino también la corrección de los ajustes de disparo. Por ejemplo, en los nuevos modelos de cámaras digitales Fujifilm (en particular, en la FinePix S100FS), se implementa la función de expandir el rango dinámico (Wide Dynamic Range, WDR), que, según los desarrolladores, permite aumentar la latitud fotográfica en una o dos paradas (en la terminología de ajustes - 200 y 400%).

Cuando la función WDR está activada, la cámara toma imágenes con una compensación de exposición de –1 o –2 EV (según el ajuste seleccionado). Por lo tanto, la imagen del marco se obtiene subexpuesta, esto es necesario para preservar la máxima información sobre los detalles en los aspectos más destacados. Luego, la imagen resultante se procesa usando una curva tonal para igualar el balance general y ajustar el nivel de negro. Luego, la imagen se convierte a formato de 8 bits y se graba como un archivo JPEG.

La compresión de rango dinámico conserva más detalles
en luces y sombras, pero la consecuencia inevitable de tal impacto
es la reducción del contraste general. En la imagen inferior
la textura de las nubes está mucho mejor resuelta, sin embargo
debido al menor contraste, esta imagen es
parece menos natural

Una función similar llamada Ampliación del rango dinámico se implementa en varias cámaras Pentax compactas y SLR (Optio S12, K200D, etc.). Según el fabricante, el uso de Dynamic Range Enlargement permite aumentar la latitud fotográfica en 1 EV sin perder detalles en las luces y sombras.

Una función similar llamada Prioridad de tono de altas luces (HTP) se implementa en varios modelos de Canon DSLR (EOS 40D, EOS 450D, etc.). Según la información del manual de usuario, la activación de HTP puede mejorar el detalle en las altas luces (más concretamente, en el rango de niveles de 0 a 18% de gris).

Conclusión

Resumamos. La función de compresión de rango dinámico incorporada le permite convertir la imagen original con un alto rango dinámico a 8 bits con un daño mínimo archivo JPEG... En ausencia de una función de captura RAW, la compresión de rango dinámico permite al fotógrafo aprovechar al máximo el potencial de su cámara al capturar escenas de alto contraste.

Por supuesto, tenga en cuenta que la compresión de rango dinámico no es una fórmula mágica, sino un compromiso. Hay que pagar por la preservación de los detalles en las luces y / o sombras aumentando el nivel de ruido en las áreas oscuras de la imagen, reduciendo su contraste y endureciendo algo las suaves transiciones tonales.

Como cualquiera función automática, el algoritmo de compresión de rango dinámico no es una solución completamente universal que le permita mejorar absolutamente cualquier imagen. Y por tanto, tiene sentido activarlo solo en aquellos casos en los que realmente sea necesario. Por ejemplo, para capturar una silueta con un fondo bien definido, la función de compresión de rango dinámico debe estar desactivada; de lo contrario, la escena efectiva se arruinará irremediablemente.

Concluyendo la consideración de este tema, cabe señalar que el uso de las funciones de compresión de rango dinámico no permite "estirar" los detalles de la imagen resultante que no fueron arreglados por el sensor de la cámara. Para obtener un resultado satisfactorio al capturar escenas de alto contraste, debe utilizar dispositivos adicionales (por ejemplo, filtros de degradado para fotografiar paisajes) o técnicas especiales (como tomar múltiples fotogramas de horquillado de exposición y luego combinarlos en una imagen usando la tecnología Tone Mapping).

El próximo artículo se centrará en la función de ráfaga.

Continuará

El nivel de sonido es el mismo en toda la composición, hay varias pausas.

Estrechando el rango dinámico

Estrechando el rango dinámico, o más simplemente compresión, es necesario para diferentes propósitos, los más comunes son:

1) Lograr un nivel de volumen uniforme en toda la composición (o parte del instrumento).

2) Logro de un nivel uniforme de volumen de canciones a lo largo del álbum / transmisión de radio.

2) Mejora de la inteligibilidad, principalmente al comprimir una determinada parte (voz, bombo).

¿Cómo disminuye el rango dinámico?

El compresor analiza el nivel de sonido de entrada comparándolo con un valor de umbral definido por el usuario.

Si el nivel de la señal está por debajo del valor Límite - entonces el compresor continúa analizando el sonido sin cambiarlo. Si el nivel de sonido excede el valor del umbral, entonces el compresor inicia su acción. Dado que el papel del compresor es estrechar el rango dinámico, es lógico suponer que limita los valores más grandes y más pequeños de la amplitud (nivel de señal). En la primera etapa, los valores más grandes son limitados, que disminuyen con una cierta fuerza, que se llama Proporción (Actitud). Veamos un ejemplo:

Las curvas verdes muestran el nivel de sonido, cuanto mayor es la amplitud de sus oscilaciones desde el eje X, mayor es el nivel de señal.

La línea amarilla es el umbral del compresor. Al aumentar el valor del umbral, el usuario lo aleja del eje X. Al hacer que el valor del umbral sea más bajo, el usuario lo acerca al eje Y. Está claro que cuanto más bajo es el valor del umbral, más a menudo funcionará el compresor y viceversa, más alto, con menos frecuencia. Si el valor de relación es muy alto, luego de alcanzar el nivel de señal de umbral, el compresor suprimirá todas las señales posteriores hasta que se silencie. Si el valor de la relación es muy pequeño, no ocurrirá nada. La elección de los valores de umbral y relación se analizará más adelante. Ahora deberíamos hacernos la siguiente pregunta: ¿Cuál es el punto de suprimir todos los sonidos posteriores? De hecho, esto no tiene sentido, solo necesitamos deshacernos de los valores de amplitud (picos) que exceden el valor de Umbral (marcado en rojo en el gráfico). Es para solucionar este problema que existe un parámetro Lanzamiento (Decay), que establece la duración de la compresión.

El ejemplo muestra que el primer y segundo umbral se superan durante menos del tercer umbral. Por lo tanto, si el parámetro Release se establece en los dos primeros picos, al procesar el tercero, puede quedar una parte sin procesar (ya que exceder el umbral del umbral toma más tiempo). Si el parámetro Release se establece en el tercer pico, al procesar el primer y segundo picos, se forma una disminución no deseada en el nivel de la señal detrás de ellos.

Lo mismo ocurre con el parámetro Ratio. Si el parámetro Ratio se establece en los dos primeros picos, el tercero no se suprimirá lo suficiente. Si el parámetro Ratio está configurado para procesar el tercer pico, entonces el procesamiento de los dos primeros picos será demasiado alto.

Estos problemas se pueden resolver de dos formas:

1) Establecer el parámetro Attack es una solución parcial.

2) La compresión dinámica es una solución completa.

Parámetro untaki (ataque)está diseñado para establecer el tiempo después del cual el compresor comenzará a funcionar después de exceder el umbral. Si el parámetro está cerca de cero (igual a cero en el caso de compresión paralela, ver el artículo correspondiente), entonces el compresor comenzará a suprimir la señal inmediatamente y funcionará la cantidad de tiempo establecida por el parámetro Release. Si la velocidad de ataque es alta, entonces el compresor comenzará su acción después de un cierto período de tiempo (esto es necesario para dar claridad). En nuestro caso, puede ajustar los parámetros del umbral, liberación y nivel de compresión (relación) para procesar los dos primeros picos y establecer el valor de ataque cerca de cero. Luego, el compresor suprimirá los dos primeros picos y, al procesar el tercero, lo suprimirá hasta que se supere el umbral. Sin embargo, esto no garantiza un procesamiento de sonido de alta calidad y está cerca de limitar (un corte aproximado de todos los valores de amplitud, en este caso el compresor se llama limitador).

Veamos el resultado del procesamiento de sonido por el compresor:

Los picos desaparecieron, observo que los ajustes de procesamiento fueron bastante suaves y suprimimos solo los valores de amplitud más prominentes. En la práctica, el rango dinámico se estrecha mucho más y esta tendencia solo está progresando. En la mente de muchos compositores, hacen que la música suene más fuerte, pero en la práctica la privan por completo de la dinámica para aquellos oyentes que pueden estar escuchándola en casa y no en la radio.

Nos queda considerar el último parámetro de compresión, es Ganancia(Ganancia). La ganancia está destinada a aumentar la amplitud de toda la composición y es esencialmente equivalente a otra herramienta de edición de sonido: normalizar. Veamos el resultado final:

En nuestro caso, la compresión se justificó y mejoró la calidad del sonido, ya que el pico prominente es más un accidente que un resultado deliberado. Además, puede ver que la música es rítmica, por lo que tiene un rango dinámico estrecho. En los casos en los que se hayan realizado deliberadamente valores de amplitud altos, la compresión puede convertirse en un error.

Compresión dinámica

La diferencia entre la compresión dinámica y no dinámica es que en la primera, el nivel de supresión de señal (Relación) depende del nivel de la señal de entrada. Los compresores dinámicos están disponibles en todos los programas modernos, los parámetros de Relación y Umbral se controlan mediante la ventana (cada parámetro tiene su propio eje):

No existe un estándar único para mostrar el gráfico, en algún lugar a lo largo del eje Y se muestra el nivel de la señal de entrada, en algún lugar por el contrario, el nivel de la señal después de la compresión. En algún lugar, el punto (0,0) está en la esquina superior derecha, en algún lugar en la parte inferior izquierda. En cualquier caso, mover el cursor del mouse sobre este campo cambia los valores de los números que corresponden a los parámetros de Relación y Umbral. Aquellos. Establece el nivel de compresión para cada valor de umbral, lo que lo hace muy flexible para ajustar la compresión.

Cadena lateral

El compresor de cadena lateral analiza la señal de un canal y, cuando el nivel de sonido supera el umbral, aplica compresión al otro canal. La cadena lateral tiene la ventaja de trabajar con instrumentos que se encuentran en la misma región de frecuencia (el bombo-bombo se usa activamente), pero a veces se utilizan instrumentos ubicados en diferentes regiones de frecuencia, lo que conduce a un interesante efecto de cadena lateral.

Segunda parte: etapas de la compresión

Hay tres etapas de compresión:

1) La primera etapa es la compresión de sonidos individuales (singleshoots).

El timbre de cualquier instrumento tiene las siguientes características: Attack, Hold, Decay, Delay, Sustain, Release.

La etapa de compresión para sonidos individuales se divide en dos partes:

1.1) Comprimir sonidos individuales de instrumentos rítmicos

A menudo, los bits constituyentes requieren una compresión separada para darles nitidez. Mucha gente procesa el bombo por separado de otros instrumentos rítmicos, tanto en la etapa de compresión de sonidos individuales como en la etapa de compresión de partes individuales. Esto se debe al hecho de que se encuentra en la región de baja frecuencia, donde, además, solo suelen estar presentes los graves. La claridad del bombo se entiende como la presencia de un clic característico (el bombo tiene un tiempo de ataque y retención muy corto). Si no hay clic, debe procesarlo con un compresor, estableciendo el umbral en cero y el tiempo de ataque de 10 a 50 ms. La Realese del compresor debe terminar antes de la patada nuevamente. El último problema se puede resolver con la fórmula: 60.000 / BPM, donde BPM es el tempo de la composición. Entonces, por ejemplo) 60,000 / 137 \u003d 437.96 (tiempo en milisegundos hasta una nueva fracción fuerte de una composición de 4 dimensiones).

Todo lo anterior se aplica a otros instrumentos rítmicos con un tiempo de ataque corto; deben tener un clic acentuado, que el compresor no debe suprimir en ninguna etapa de los niveles de compresión.

1.2) Compresión sonidos individuales instrumentos armónicos

A diferencia de los instrumentos rítmicos, las partes de instrumentos armónicos rara vez se componen de sonidos separados. Sin embargo, esto no significa que no deban procesarse al nivel de compresión de sonido. Si usa una muestra con una parte grabada, este es el segundo nivel de compresión. Este nivel de compresión incluye solo instrumentos armónicos sintetizados. Estos pueden ser muestreadores, sintetizadores que utilizan varios métodos de síntesis de sonido (modelado físico, FM, aditivo, sustractivo, etc.). Como probablemente ya adivinó, estamos hablando de programar la configuración del sintetizador. ¡Si! ¡Esto también es compresión! Casi todos los sintetizadores tienen un parámetro de envolvente programable (ADSR), lo que significa envolvente. La envolvente se utiliza para configurar los tiempos de ataque, caída, sostenido y liberación. Y si me dices que esto no es una compresión de cada sonido, ¡eres mi enemigo de por vida!

2) La segunda etapa - Compresión de piezas individuales.

Al comprimir partes individuales, me refiero a reducir el rango dinámico de una serie de sonidos individuales combinados. Esta etapa también incluye grabaciones de partes, incluidas las voces, que requieren un procesamiento de compresión para que sea clara e inteligible. Al procesar la compresión de las partes, debe tener en cuenta el hecho de que al agregar sonidos individuales, pueden aparecer picos no deseados, de los que debe deshacerse en esta etapa, ya que si esto no se hace ahora, la imagen puede empeorar en la etapa de mezclar toda la composición. En la etapa de compresión de partes individuales, debe tener en cuenta la etapa de compresión del procesamiento de sonidos individuales. Si ha logrado la claridad del bombo, un reprocesamiento incorrecto en la segunda etapa puede arruinarlo todo. El procesamiento del compresor de todas las partes es opcional, ni es necesario procesar todos los sonidos individuales. Le aconsejo que coloque un analizador de amplitud por si acaso para determinar la presencia de efectos secundarios no deseados de combinar sonidos individuales. Además de la compresión, en esta etapa es necesario asegurarse de que las partes estén, si es posible, en diferentes rangos de frecuencia, para que se realice la cuantificación. También es útil recordar que el sonido tiene una característica como el enmascaramiento (psicoacústica):

1) El sonido más bajo está enmascarado por el sonido más fuerte que viene delante de él.

2) Un sonido más bajo en una frecuencia baja está enmascarado por un sonido más fuerte en una frecuencia alta.

Entonces, por ejemplo, si tiene una parte de sintetizador, a menudo las notas comienzan a reproducirse antes de que las notas anteriores hayan terminado. A veces, esto es necesario (crear armonía, estilo de ejecución, polifonía), pero a veces no en absoluto: puede cortar su final (Delay - Release) si se escucha en el modo solo, pero no en el modo de reproducción de todas las partes. Lo mismo se aplica a efectos como la reverberación; no debería durar hasta que la fuente de sonido comience de nuevo. Al cortar y eliminar la señal innecesaria, hace que el sonido sea más limpio, y esto también se puede considerar como compresión, porque elimina las ondas innecesarias.

3) La tercera etapa - Compresión de la composición.

Al comprimir una composición completa, tenga en cuenta que todas las partes son una combinación de muchos sonidos separados. Por lo tanto, al combinarlos y luego comprimirlos, debe asegurarse de que la compresión final no estropee lo que logramos en las dos primeras etapas. También debe separar las composiciones en las que es importante un rango amplio o estrecho. al comprimir composiciones con un amplio rango dinámico, basta con poner un compresor que aplastará los picos a corto plazo que se formaron como resultado de sumar las partes. Comprimir una composición en la que es importante un rango dinámico estrecho es mucho más complicado. Aquí los compresores se denominan recientemente maximizadores. Maximizer es un complemento que combina un compresor, limitador, ecualizador de graffiti, potenciador y otras herramientas de conversión de sonido. Además, debe tener necesariamente herramientas de análisis sólidas. Maximizar, el procesamiento final por parte del compresor, es en gran parte necesario para combatir los errores cometidos en las etapas anteriores. Los errores no son tanto de compresión (sin embargo, si haces en la última etapa lo que podrías haber hecho en la primera etapa ya es un error), como en la elección inicial de buenos samples e instrumentos que no interfieran entre sí (estamos hablando de rangos de frecuencia) ... Por eso se corrige la respuesta de frecuencia. A menudo sucede que con una fuerte compresión en el maestro, debe cambiar los parámetros de compresión y mezcla en etapas anteriores, ya que con un fuerte estrechamiento del rango dinámico, salen sonidos silenciosos que estaban previamente enmascarados, el sonido de los componentes individuales de la composición cambia.

En estas partes no hablé deliberadamente sobre parámetros de compresión específicos. Sentí que era necesario escribir sobre la necesidad de prestar atención a todos los sonidos y todas las partes durante la compresión en todas las etapas de la creación de la composición. Esta es la única forma en que al final obtendrás un resultado armonioso no solo desde el punto de vista de la teoría musical, sino también desde el punto de vista de la ingeniería de sonido.

La siguiente tabla proporciona consejos prácticos para procesar lotes individuales. Sin embargo, en la compresión, los números y los ajustes preestablecidos solo pueden indicarle el área que debe buscar. El ajuste de compresión ideal variará de un caso a otro. Los parámetros de ganancia y umbral asumen un nivel de sonido normal (uso lógico de todo el rango).

Tercera parte: opciones de compresión

Referencia rápida:

Umbral: define el nivel de sonido de la señal entrante, una vez alcanzado, el compresor comienza a funcionar.

Ataque: define el tiempo después del cual el compresor comenzará a funcionar.

Nivel (relación): determina el grado de disminución de los valores de amplitud (en relación con el valor original de la amplitud).

Liberación (liberación): define el tiempo después del cual el compresor dejará de funcionar.

Gain - Determina el nivel de aumento de la señal de entrada, después de ser procesada por el compresor.

Tabla de compresión:

Herramienta Límite Ataque Proporción Lanzamiento Ganancia Descripción
Voz 0 dB 1-2 ms

2-5 mS

10 milisegundos

0,1 ms

0,1 ms

menos de 4: 1

2,5: 1

4:1 – 12:1

2:1 -8:1

150 ms

50-100 mS

150 milisegundos

150 ms

0,5 s

La compresión durante la grabación debe ser mínima; requiere un procesamiento obligatorio en la etapa de mezcla para que sea clara e inteligible.
Instrumentos de viento 1 - 5 ms 6:1 – 15:1 0,3 s
Barril de 10 a 50 ms

10-100 mS

4: 1 y superior

10:1

50-100 ms

1 mS

Cuanto menor sea el Thrshold y mayor el Ratio y cuanto más largo sea el Ataque, más pronunciado será el clic al comienzo de la patada.
Sintetizadores Depende del tipo de onda (envolventes ADSR).
Tambor de caja: 10-40 mS

1 a 5 ms

5:1

5:1 – 10:1

50 mS

0,2 s

Hola sombrero 20 mS 10:1 1 mS
Micrófonos de techo 2-5 mS 5:1 1-50 mS
Tambores 5ms 5:1 – 8:1 10 ms
Bajo 100-200 mS

4 ms a 10 ms

5:1 1 mS

10 ms

Instrumentos de cuerda 0-40 mS 3:1 500 mS
Sint. bajo 4 ms - 10 ms 4:1 10 ms Depende de los sobres.
Percusión 0-20 mS 10:1 50 mS
Guitarra acústica, Piano 10-30 mS

5 - 10 ms

4:1

5:1 -10:1

50-100 mS

0,5 s

Electro-nitara 2 - 5 ms 8:1 0,5 s
Compresión final 0,1 ms

0,1 ms

2:1

2: 1 a 3: 1

50 ms

0,1 ms

Salida 0dB El tiempo de ataque depende del objetivo, ya sea que desee eliminar los picos o hacer que la pista sea más suave.
Limitador después de la compresión final 0 mS 10:1 10-50 mS Salida 0dB Si necesita un rango dinámico estrecho y un "corte" aproximado de ondas.

La información se tomó de diversas fuentes, a las que se refieren los diversos recursos de Internet. La diferencia en los parámetros de compresión se explica por la diferencia en las preferencias de sonido y el trabajo con diferentes materiales.