Online-сервисы

Компрессия звука: принцип и настройка. Динамическая компрессия Ratio или коэффициент сжатия

, Медиаплееры

Пластинки, особенно старые, которые были записаны и изготовлены до 1982 года, с гораздо меньшей вероятностью подвергались микшированию, во время которого запись бы сделали громче. Они воспроизводят естественную музыку с естественным динамическим диапазоном, который сохраняется на пластинке и теряется у большинства стандартных цифровых форматов или форматов высокого разрешения.

Разумеется, здесь есть исключения – послушайте не так давно вышедший альбом Стивена Уилсона от MA Recordings или Reference Recordings , и вы услышите, насколько хорошим может быть цифровой звук. Но это редкость, большинство современных звукозаписей громкие и сжатые.

Последнее время компрессия музыки подвергается серьезной критике, но я готов спорить, что практически все ваши любимые записи сжаты. Какие-то из них менее, какие-то более, но все равно сжаты. Сжатие динамического диапазона – это своеобразный козел отпущения, которого винят в плохом музыкальном звучании, но сильно сжатая музыка – это не новое веяние: послушайте альбомы Motown 60-х годов. То же самое можно сказать про классические работы Led Zeppelin или более молодые альбомы Wilco и Radiohead. Сжатие динамического диапазона уменьшает естественное соотношение между самым громким и самым тихим звуком на записи, поэтому шепот может быть таким же громким как крик. Довольно проблематично найти поп-музыку последних 50 лет, которая не была подвержена компрессии.

Недавно я мило побеседовал с основателем и редактором журнала Tape Op Ларри Крэйном (Larry Crane) о хороших, плохих и «злых» аспектах сжатия. Ларри Крэйн работал с такими группами и исполнителями как Стефан Маркус, Cat Power, Sleater-Kinney, Дженни Льюис, M. Ward, The Go-Betweens, Джейсон Литтл, Элиот Смит, Quasi и Richmond Fontaine. Он также управляет звукозаписывающей студией Jackpot! в Портленде, Орегон, которая являлась пристанищем для The Breeders, The Decemberists, Эдди Веддера, Pavement, R.E.M., She & Him и еще для многих-многих других.

В качестве примера удивительно неестественно звучащих, но все равно отличных песен, я привожу альбом Spoon «They Want My Soul», вышедший в 2014 году. Крэйн смеется и говорит, что слушает его в машине, поскольку там он отлично звучит. Что приводит нас к еще одному ответу на вопрос, почему музыку сжимают: потому что сжатие и дополнительная «четкость» позволяют лучше её слышать в шумных местах.

Ларри Крэйн за работой. Фото Джейсона Куигли (Jason Quigley)

Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия. С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей.

Многие торопятся обвинять мастеринг-инженеров в злоупотреблении компрессией, однако сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Если вы лично не присутствовали на каждом из этих этапов, то не сможете сказать, как звучали инструменты и вокальная партия в самом начале процесса.

Крэйн был в ударе: «Если музыкант хочет намеренно сделать звук безумным и искаженным как записи Guided by Voices, то в этом нет ничего плохого – желание всегда перевешивает качество звучания». Голос исполнителя практически всегда сжимается, то же самое происходит с басом, барабанами, гитарами и синтезаторами. С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков.

Правильно выполненное сжатие может сделать звук барабанов более живым или намеренно странным. Чтобы музыка звучала отлично, нужно уметь пользоваться необходимыми для этого инструментами. Вот почему на то, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы. Если микс-инженер слишком сильно сжал гитарную партию, то мастеринг-инженер уже не сможет в полной мере восстановить отсутствующие частоты.

Если бы музыканты хотели, чтобы вы слушали музыку, не прошедшую этапы микширования и мастеринга, то выпускали бы её на полки магазинов прямиком из студии. Крэйн говорит, что люди, которые создают, редактируют, микшируют музыкальные записи и проводят их мастеринг, существуют не для того, чтобы путаться под ногами у музыкантов – они помогают исполнителям с самого начала, то есть уже более ста лет.

Эти люди – часть процесса творения, в результате которого получаются удивительные произведения искусства. Крэйн добавляет: «Вам не нужна версия «Dark Side of the Moon», которая не прошла через микширование и мастеринг». Pink Floyd выпустили песню в таком виде, в каком они хотели её слышать.

Задумаемся над вопросом - а зачем нам поднимать громкость? Для того чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно - тихие звуки усиливать, громкие - нет. Самый простой закон изменения громкости - линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k - коэффициент сжатия динамического диапазона:

Рисунок 18. Сжатие динамического диапазона.

При k = 1 никаких изменений не производится (выходная громкость равна входной). При k < 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k > 1 - громкость будет уменьшаться, а динамический диапазон - увеличиваться.

Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):

Рисунок 19. графики громкости.

Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие - на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие - на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом, громкие звуки стали значительно тише, а тихие - значительно громче. При этом переполнения не происходит!

Теперь обратимся к гистограммам:

Рисунок 20. Пример компрессии.

Как хорошо видно - при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода - те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании, а их характер отличен - они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Чрезмерный уровень компрессии приводит к уплощению звуковой картины - все звуки стремятся к одинаковой громкости и невыразительности.

Сильное усиление тихих звуков может привести к тому, что станут слышны шумы записи. Поэтому в фильтре применен, немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:

Рисунок 21. Увеличение громкости, без увеличения шума.

Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции, и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке - сжатие 1:5). Уровень “DRC” в фильтре задает уровень усиления для тихих звуков (на уровне -50dB), т.о. уровень компрессии 1/5, показанный на рисунке, соответствует уровню +40дБ в настройках фильтра.

Вторая часть цикла посвящена функциям оптимизации динамического диапазона изображений. В ней мы расскажем, зачем нужны подобные решения, рассмотрим различные варианты их реализации, а также их достоинства и недостатки.

Объять необъятное

В идеале фотоаппарат должен фиксировать изображение окружающего мира таким, каким его воспринимает человек. Однако в силу того, что механизмы «зрения» фотокамеры и человеческого глаза существенно различаются, есть ряд ограничений, не позволяющих выполнить это условие.

Одна из проблем, с которой сталкивались ранее пользователи пленочных фотоаппаратов и сталкиваются сейчас обладатели цифровых, заключается в невозможности адекватно запечатлеть сцены с большим перепадом освещенности без использования специальных приспособлений и/или особых приемов съемки. Особенности зрительного аппарата человека позволяют одинаково хорошо воспринимать детали высококонтрастных сцен как на ярко освещенных, так и на темных участках. К сожалению, сенсор фотоаппарата далеко не всегда способен запечатлеть изображение таким, каким видим его мы.

Чем больше перепад яркостей на фотографируемой сцене, тем выше вероятность потери деталей в светах и/или тенях. В результате вместо голубого неба с пышными облаками на снимке получается лишь белесое пятно, а расположенные в тени объекты превращаются в невнятные темные силуэты или вовсе сливаются с окружающей обстановкой.

В классической фотографии для оценки возможности фотоаппарата (или носителя в случае пленочных камер) передавать определенный диапазон яркостей используется понятие фотографической широты (подробнее см. во врезке). Теоретически фотографическая широта цифровых фотоаппаратов определяется разрядностью аналого-цифрового преобразователя (АЦП). Например, при применении 8-разрядного АЦП с учетом погрешности квантования теоретически достижимое значение фотографической широты составит 7 EV, для 12-разрядного - 11 EV и т.д. Однако в реальных устройствах динамический диапазон изображений оказывается у же теоретического максимума вследствие влияния разного рода шумов и прочих факторов.

Большой перепад уровней яркости представляет собой серьезную
проблему при фотосъемке. В данном случае возможностей фотоаппарата
оказалось недостаточно для адекватной передачи наиболее
светлых областей сцены, и в результате вместо участка голубого
неба (отмечен обводкой) получилась белая «заплатка»

Максимальное значение яркости, которое способен зафиксировать светочувствительный сенсор, определяется уровнем насыщения его ячеек. Минимальное значение зависит от нескольких факторов, в числе которых - величина теплового шума матрицы, шум переноса заряда и погрешность АЦП.

Стоит также отметить, что фотографическая широта одного и того же цифрового фотоаппарата может варьироваться в зависимости от установленного в настройках значения чувствительности. Максимальный динамический диапазон достижим при установке так называемой базовой чувствительности (соответствующей минимальному численному значению из возможных). По мере увеличения значения этого параметра динамический диапазон уменьшается вследствие возрастающего уровня шумов.

Фотографическая широта современных моделей цифровых фотоаппаратов, оснащенных сенсорами большого размера и 14- либо 16-разрядными АЦП, составляет от 9 до 11 EV, что значительно больше по сравнению с аналогичными характеристиками цветных негативных пленок 35-миллиметрового формата (в среднем от 4 до 5 EV). Таким образом, даже относительно недорогие цифровые фотоаппараты обладают фотографической широтой, достаточной для адекватной передачи большинства типичных сюжетов любительской съемки.

Однако существует проблема иного рода. Связана она с ограничениями, налагаемыми существующими стандартами записи цифровых изображений. Используя формат JPEG с разрядностью 8 бит на цветовой канал (который в настоящее время стал фактическим стандартом для записи цифровых изображений в компьютерной индустрии и цифровой технике), даже теоретически нельзя сохранить снимок, имеющий фотографическую широту более 8 EV.

Предположим, что АЦП фотоаппарата позволяет получить изображение разрядностью 12 или 14 бит, содержащее различимые детали как в светах, так и в тенях. Однако если фотографическая широта этого образа превосходит 8 EV, то в процессе преобразования в стандартный 8-битный формат без каких-либо дополнительных действий (то есть просто путем отбрасывания «лишних» разрядов) часть зафиксированной светочувствительным сенсором информации потеряется.

Динамический диапазон и фотографическая широта

Если говорить упрощенно, то динамический диапазон определяется как отношение максимального значения яркости изображения к ее минимальному значению. В классической фотографии традиционно используется термин фотографическая широта, который, по сути, обозначает то же самое.

Ширину динамического диапазона можно выразить в виде отношения (например, 1000:1, 2500:1 и т.п.), однако чаще всего для этого используется логарифмическая шкала. В этом случае вычисляется значение десятичного логарифма отношения максимальной яркости к ее минимальной величине, а после числа ставится прописная буква D (от англ. density?- плотность), реже?- аббревиатура OD (от англ. optical density?- оптическая плотность). Например, если отношение максимальной величины яркости к минимальному значению какого-либо устройства составляет 1000:1, то динамический диапазон будет равен 3,0 D:

Для измерения фотографической широты традиционно используются так называемые единицы экспозиции, обозначаемые аббревиатурой EV (от англ. exposure values; профессионалы зачастую именуют их «стопами» или «ступенями»). Именно в этих единицах обычно задается величина коррекции экспозиции в настройках фотоаппарата. Увеличение значения фотографической широты на 1 EV эквивалентно удвоению разницы между максимальным и минимальным уровнями яркости. Таким образом, шкала EV также является логарифмической, но для расчета численных значений в данном случае применяется логарифм с основанием 2. Например, если какое-либо устройство обеспечивает возможность фиксации изображений, отношение максимальной величины яркости к минимальному значению которых достигает 256:1, то его фотографическая широта составит 8 EV:

Сжатие - разумный компромисс

Наиболее эффективным способом сохранить в полном объеме информацию об изображении, зафиксированную светочувствительным сенсором камеры, является запись снимков в формате RAW. Однако подобная функция имеется далеко не во всех фотоаппаратах, да и не каждый фотолюбитель готов заниматься кропотливой работой по подбору индивидуальных настроек для каждого сделанного снимка.

Чтобы снизить вероятность потери деталей высококонтрастных снимков, преобразуемых внутри камеры в 8-битный JPEG, в аппаратах многих производителей (причем не только компактных, но и зеркальных) были внедрены специальные функции, позволяющие без вмешательства пользователя сжимать динамический диапазон сохраняемых изображений. За счет снижения общего контраста и потери незначительной части информации исходного образа подобные решения позволяют сохранить в 8-битном формате JPEG детали в светах и тенях, зафиксированные светочувствительным сенсором аппарата, даже в том случае, если динамический диапазон исходного образа оказался шире 8 EV.

Одним из пионеров в освоении этого направления стала компания НР. В выпущенной в 2003 году цифровой фотокамере HP Photosmart 945 была впервые в мире реализована технология HP Adaptive Lightling, позволяющая автоматически компенсировать недостаток освещенности на темных областях снимков и таким образом сохранять детали в тенях без риска переэкспонирования (что весьма актуально при съемке высококонтрастных сцен). Алгоритм работы HP Adaptive Lightling основывается на принципах, изложенных английским ученым Эдвином Лэндом (Edwin Land) в теории зрительного восприятия человека RETINEX.

Меню функции HP Adaptive Lighting

Как же работает функция Adaptive Lighting? После получения 12-битного образа снимка из него экстрагируется вспомогательное монохромное изображение, которое фактически представляет собой карту освещенности. При обработке снимка эта карта используется в качестве маски, позволяющей регулировать степень воздействия довольно сложного цифрового фильтра на изображение. Таким образом, на участках, соответствующих наиболее темным точкам карты, воздействие на образ будущего снимка минимально, и наоборот. Такой подход позволяет проявить детали в тенях за счет избирательного осветления этих областей и соответственно снижения общей контрастности результирующего изображения.

Следует отметить, что при включении функции Adaptive Lighting сделанный снимок обрабатывается описанным выше образом перед тем, как готовое изображение будет записано в файл. Все описанные операции выполняются автоматически, а пользователь может лишь выбрать в меню фотоаппарата один из двух режимов работы Adaptive Lighting (низкий либо высокий уровень воздействия) либо отключить эту функцию.

Вообще говоря, многие специфические функции современных цифровых фотоаппаратов (в том числе и рассмотренные в предыдущей статье системы распознавания лиц) являются своего рода побочными либо конверсионными продуктами научно-исследовательских работ, которые изначально выполнялись для военных заказчиков. Что касается функций оптимизации динамического диапазона изображений, то одним из наиболее известных поставщиков подобных решений является компания Apical. Созданные ее сотрудниками алгоритмы, в частности, лежат в основе работы функции SAT (Shadow Adjustment Technology - технология коррекции теней), реализованной в ряде моделей цифровых фотоаппаратов Olympus. Вкратце работу функции SAT можно описать следующим образом: на основе исходного образа снимка создается маска, соответствующая наиболее темным участкам, и затем для этих областей производится автоматическая коррекция величины экспозиции.

Лицензию на право использования разработок Apical приобрела и компания Sony. Во многих моделях компактных фотоаппаратов серии Cyber-shot и в зеркальных камерах серии «альфа» реализована так называемая функция оптимизации динамического диапазона (Dynamic Range Optimizer, DRO).

Фотоснимки, сделанные камерой НР Photosmart R927 с отключенной (вверху)
и активированной функцией Adaptive Lighting

Коррекция снимка при активации DRO выполняется в процессе первичной обработки изображения (то есть до записи готового файла формата JPEG). В базовом варианте DRO имеет двухступенчатую настройку (в меню можно выбрать стандартный либо расширенный режим ее работы). При выборе стандартного режима на основе анализа образа снимка производится коррекция величины экспозиции, а затем к изображению применяется тоновая кривая для выравнивания общего баланса. В расширенном режиме используется более сложный алгоритм, позволяющий производить коррекцию как в тенях, так и в светах.

Разработчики Sony постоянно работают над усовершенствованием алгоритма работы DRO. Например, в зеркальной фотокамере а700 при активации продвинутого режима DRO предусмотрена возможность выбора одного из пяти вариантов коррекции. Кроме того, реализована возможность сохранения сразу трех вариантов одного снимка (своего рода брекетинг) с различными вариантами настроек DRO.

Во многих моделях цифровых фотоаппаратов компании Nikon имеется функция D-Lighting, в основе которой также использованы алгоритмы Apical. Правда, в отличие от описанных выше решений, D-Lighting реализована в виде фильтра для обработки ранее сохраненных снимков посредством тональной кривой, форма которой позволяет сделать тени более светлыми, сохраняя в неизменном виде остальные участки изображения. Но поскольку в этом случае обработке подвергаются уже готовые 8-битные изображения (а не исходный образ кадра, имеющий более высокую разрядность и соответственно более широкий динамический диапазон), то возможности D-Lighting весьма ограниченны. Получить такой же результат пользователь может путем обработки снимка в графическом редакторе.

При сравнении увеличенных фрагментов хорошо заметно, что темные участки исходного снимка (слева)
при включении функции Adaptive Lighting стали светлее

Существует и ряд решений, базирующихся на иных принципах. Так, во многих фотоаппаратах семейства Lumix компании Panasonic (в частности, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 и др.) реализована функция распознавания освещенности (Intelligent Exposure), которая является составной частью системы интеллектуального автоматического управления съемкой iA. Работа функции Intelligent Exposure основывается на автоматическом анализе образа кадра и коррекции темных участков снимка во избежание потери деталей в тенях, а также (при необходимости) сжатия динамического диапазона высококонтрастных сцен.

В ряде случаев работа функции оптимизации динамического диапазона предусматривает не только определенные операции по обработке исходного образа снимка, но и коррекцию настроек съемки. Например, в новых моделях цифровых фотоаппаратов Fujifilm (в частности, в FinePix S100FS) реализована функция расширения динамического диапазона (Wide Dynamic Range, WDR), позволяющая, по данным разработчиков, увеличить фотографическую широту на одну или две ступени (в терминологии настроек - 200 и 400%).

При активации функции WDR камера делает снимки с экспокоррекцией –1 или –2 EV (в зависимости от выбранной настройки). Таким образом, образ кадра получается недодержанным - это необходимо для того, чтобы сохранить максимум информации о деталях в светах. Затем полученный образ обрабатывается при помощи тоновой кривой, что позволяет выровнять общий баланс и скорректировать уровень черного. После этого изображение преобразовывается в 8-битный формат и записывается в виде файла JPEG.

Сжатие динамического диапазона позволяет сохранить больше деталей
в светах и тенях, однако неизбежным следствием такого воздействия
является снижение общей контрастности. На нижнем изображении
гораздо лучше проработана фактура облаков, однако
из-за более низкого контраста этот вариант снимка
выглядит менее естественно

Схожая функция под названием Dynamic Range Enlargement реализована в ряде компактных и зеркальных фотоаппаратов компании Pentax (Optio S12, K200D и др.). По данным производителя, применение функции Dynamic Range Enlargement позволяет увеличить фотографическую широту снимков на 1 EV без потери деталей в светах и тенях.

Действующая подобным образом функция под названием Highlight tone priority (HTP) реализована в ряде зеркальных моделей компании Canon (EOS 40D, EOS 450D и др.). Согласно информации, приведенной в руководстве пользователя, активация HTP позволяет улучшить проработку деталей в светах (а точнее, в диапазоне уровней от 0 до 18% серого).

Заключение

Подведем итоги. Встроенная функция сжатия динамического диапазона позволяет с минимальным ущербом преобразовать исходное изображение с большим динамическим диапазоном в 8-битный файл JPEG. При отсутствии функции сохранения кадров в формате RAW режим сжатия динамического диапазона дает фотографу возможность более полно использовать потенциал своей камеры при съемке высококонтрастных сцен.

Разумеется, необходимо помнить о том, что сжатие динамического диапазона - это не чудодейственное средство, а скорее компромисс. За сохранение деталей в светах и/или тенях приходится расплачиваться увеличением уровня шума на темных участках снимка, снижением его контрастности и некоторым огрублением плавных тональных переходов.

Как и любая автоматическая функция, алгоритм сжатия динамического диапазона не является в полной мере универсальным решением, позволяющим улучшить абсолютно любой снимок. А следовательно, активировать его имеет смысл только в тех случаях, когда он действительно необходим. Например для того, чтобы снять силуэт c хорошо проработанным фоном, функцию сжатия динамического диапазона необходимо отключить - в противном случае эффектный сюжет будет безнадежно испорчен.

Завершая рассмотрение данной темы, необходимо отметить, что применение функций сжатия динамического диапазона не позволяет «вытянуть» на результирующем изображении детали, которые не были зафиксированы сенсором фотоаппарата. Для получения удовлетворительного результата при съемке высококонтрастных сюжетов необходимо использовать дополнительные приспособления (например, градиентные фильтры для фотографирования пейзажей) или специальные приемы (такие как съемка нескольких кадров с брекетингом по экспозиции и дальнейшее объединение их в одно изображение с применением технологии Tone Mapping).

Следующая статья будет посвящена функции серийной съемки.

Продолжение следует

© 2014 сайт

Или фотографическая широта фотоматериала – это отношение между максимальным и минимальным значениями экспозиции , которые могут быть корректно запечатлены на снимке. Применительно к цифровой фотографии, динамический диапазон фактически эквивалентен отношению максимального и минимального возможных значений полезного электрического сигнала, генерируемого фотосенсором в ходе экспонирования.

Динамический диапазон измеряется в ступенях экспозиции (). Каждая ступень соответствует удвоению количества света. Так, например, если некая камера имеет динамический диапазон в 8 EV, то это означает, что максимальное возможное значение полезного сигнала её матрицы относится к минимальному как 2 8:1, а значит, камера способна запечатлеть в пределах одного кадра объекты, отличающиеся по яркости не более чем в 256 раз. Точнее, запечатлеть-то она может объекты с любой яркостью, однако объекты, чья яркость будет превышать максимальное допустимое значение выйдут на снимке ослепительно белыми, а объекты, чья яркость окажется ниже минимального значения, – угольно чёрными. Детали и фактура будут различимы лишь на тех объектах, яркость которых укладывается в динамический диапазон камеры.

Для описания отношения между яркостью самого светлого и самого тёмного из снимаемых объектов часто используется не вполне корректный термин «динамический диапазон сцены». Правильнее будет говорить о диапазоне яркости или об уровне контраста, поскольку динамический диапазон – это обычно характеристика измеряющего устройства (в данном случае, матрицы цифрового фотоаппарата).

К сожалению, диапазон яркости многих красивых сцен, с которыми мы сталкиваемся в реальной жизни, может ощутимо превышать динамический диапазон цифровой фотокамеры. В таких случаях фотограф бывает вынужден решать, какие объекты должны быть проработаны во всех деталях, а какие можно оставить за пределами динамического диапазона без ущерба для творческого замысла. Для того чтобы максимально эффективно использовать динамический диапазон вашей камеры, от вас порой может потребоваться не столько доскональное понимание принципа работы фотосенсора, сколько развитое художественное чутьё.

Факторы, ограничивающие динамический диапазон

Нижняя граница динамического диапазона задана уровнем собственного шума фотосенсора. Даже неосвещённая матрица генерирует фоновый электрический сигнал, называемый темновым шумом. Также помехи возникают при переносе заряда в аналого-цифровой преобразователь, да и сам АЦП вносит в оцифровываемый сигнал определённую погрешность – т.н. шум дискретизации.

Если сделать снимок в полной темноте или с крышкой на объективе, то камера запишет только этот бессмысленный шум. Если позволить минимальному количеству света попасть на сенсор, фотодиоды начнут накапливать электрический заряд. Величина заряда, а значит, и интенсивность полезного сигнала, будет пропорциональна числу пойманных фотонов. Чтобы на снимке проступили хоть сколько-нибудь осмысленные детали, необходимо, чтобы уровень полезного сигнала превысил уровень фонового шума.

Таким образом, нижнюю границу динамического диапазона или, иначе говоря, порог чувствительности сенсора формально можно определить как уровень выходного сигнала, при котором отношение сигнал/шум больше единицы.

Верхняя граница динамического диапазона определяется ёмкостью отдельного фотодиода. Если во время экспозиции какой-либо фотодиод накопит электрический заряд предельной для себя величины, то соответствующий перегруженному фотодиоду пиксель изображения получится абсолютно белым, и дальнейшее облучение уже никак не повлияет на его яркость. Это явление называют клиппингом. Чем выше перегрузочная способность фотодиода, тем больший сигнал способен он дать на выходе, прежде чем достигнет насыщения.

Для большей наглядности обратимся к характеристической кривой, которая представляет собой график зависимости выходного сигнала от экспозиции. На горизонтальной оси отложен двоичный логарифм облучения, получаемого сенсором, а на вертикальной – двоичный логарифм величины электрического сигнала, генерируемого сенсором в ответ на это облучение. Мой рисунок в значительной степени условен и преследует исключительно иллюстративные цели. Характеристическая кривая настоящего фотосенсора имеет несколько более сложную форму, да и уровень шума редко бывает столь высок.

На графике хорошо видны две критические переломные точки: в первой из них уровень полезного сигнала пересекает шумовой порог, а во второй – фотодиоды достигают насыщения. Значения экспозиции, лежащие между этими двумя точками, и составляют динамический диапазон. В данном абстрактном примере он равен, как несложно заметить, 5 EV, т.е. камера способна переварить пять удвоений экспозиции, что равнозначно 32-кратной (2 5 =32) разнице в яркости.

Зоны экспозиции, составляющие динамический диапазон неравноценны. Верхние зоны отличаются более высоким отношением сигнал/шум, и потому выглядят чище и детальнее, чем нижние. Вследствие этого верхняя граница динамического диапазона весьма вещественна и ощутима – клиппинг обрубает света при малейшей передержке, в то время как нижняя граница неприметным образом тонет в шумах, и переход к чёрному цвету далеко не так резок, как к белому.

Линейная зависимость сигнала от экспозиции, а также резкий выход на плато являются уникальными чертами именно цифрового фотографического процесса. Для сравнения взгляните на условную характеристическую кривую традиционной фотоплёнки.

Форма кривой и особенно угол наклона сильно зависят от типа плёнки и от процедуры её проявления, но неизменным остаётся главное, бросающееся в глаза отличие плёночного графика от цифрового – нелинейный характер зависимости оптической плотности плёнки от величины экспозиции.

Нижняя граница фотографической широты негативной плёнки определяется плотностью вуали, а верхняя – максимальной достижимой оптической плотностью фотослоя; у обращаемых плёнок – наоборот. Как в тенях, так и в светах наблюдаются плавные изгибы характеристической кривой, указывающие на падение контраста при приближении к границам динамического диапазона, ведь угол наклона кривой пропорционален контрастности изображения. Таким образом, зоны экспозиции, лежащие на средней части графика, обладают максимальным контрастом, в то время как в светах и тенях контраст снижен. На практике разница между плёнкой и цифровой матрицей особенно хорошо заметна в светах: там, где в цифровом изображении света выжжены клиппингом, на плёнке детали всё ещё различимы, хоть и малоконтрастны, а переход к чисто белому цвету выглядит плавным и естественным.

В сенситометрии используются даже два самостоятельных термина: собственно фотографическая широта , ограниченная сравнительно линейным участком характеристической кривой, и полезная фотографическая широта , включающая помимо линейного участка также основание и плечо графика.

Примечательно, что при обработке цифровых фотографий, к ним, как правило, применяется более или менее выраженная S-образная кривая , повышающая контраст в полутонах ценой его снижения в тенях и светах, что придаёт цифровому изображению более естественный и приятный глазу вид.

Разрядность

В отличие от матрицы цифрового фотоаппарата человеческому зрению свойственен, скажем так, логарифмический взгляд на мир. Последовательные удвоения количества света воспринимаются нами как равные изменения яркости. Световые числа можно даже сравнить с музыкальными октавами, ведь двукратные изменения частоты звука воспринимаются на слух как единый музыкальный интервал. По такому принципу работают и другие органы чувств. Нелинейность восприятия очень сильно расширяет диапазон чувствительности человека к раздражителям различной интенсивности.

При конвертировании RAW-файла (не важно – средствами камеры или в RAW-конвертере), содержащего линейные данные, к нему автоматически применяется т.н. гамма-кривая, которая призвана нелинейно повысить яркость цифрового изображения, приводя её в соответствие с особенностями человеческого зрения.

При линейной конверсии изображение получается слишком тёмным.

После гамма-коррекции яркость приходит в норму.

Гамма-кривая как бы растягивает тёмные тона и сжимает светлые, делая распределение градаций более равномерным. В результате изображение приобретает естественный вид, но шум и артефакты дискретизации в тенях неизбежно становятся более заметными, что только усугубляется малым числом уровней яркости в нижних зонах.

Линейное распределение градаций яркости.
Равномерное распределение после применения гамма-кривой.

ISO и динамический диапазон

Несмотря на то, что в цифровой фотографии используется та же концепция светочувствительности фотоматериала, что и в фотографии плёночной, следует понимать, что происходит это исключительно в силу традиции, поскольку подходы к изменению светочувствительности в цифровой и плёночной фотографии различаются принципиально.

Повышение чувствительности ISO в традиционной фотографии означает замену одной плёнки на другую с более крупным зерном, т.е. происходит объективное изменение свойств самого фотоматериала. В цифровой камере светочувствительность сенсора жёстко задана его физическими характеристиками и не может быть изменена в буквальном смысле. При повышении ISO камера изменяет не реальную чувствительность сенсора, а всего лишь усиливает электрический сигнал, генерируемого сенсором в ответ на облучение и соответствующим образом корректирует алгоритм оцифровки этого сигнала.

Важным следствием этого является снижение эффективного динамического диапазона пропорционально повышению ISO, ведь вместе с полезным сигналом усиливается и шум. Если при ISO 100 оцифровывается весь диапазон значений сигнала – от нуля и до точки насыщения, то при ISO 200 уже только половина ёмкости фотодиодов принимается за максимум. С каждым удвоением чувствительности ISO верхняя ступень динамического диапазона как бы отсекается, а оставшиеся ступени, подтягиваются на её место. Именно поэтому использование сверхвысоких значений ISO лишено практического смысла. С тем же успехом можно осветлить фотографию в RAW-конвертере и получить сопоставимый уровень шумов. Разница между повышением ISO и искусственным осветлением снимка заключается в том, что при повышении ISO усиление сигнала происходит до поступления его в АЦП, а значит, шум квантования не усиливается, в отличие от собственных шумов сенсора, в то время как в RAW-конвертере усилению подлежат в том числе и ошибки АЦП. Кроме того, уменьшение диапазона оцифровки означает более точную дискретизацию оставшихся значений входного сигнала.

Кстати, доступное на некоторых аппаратах понижение ISO ниже базового значения (например, до ISO 50), отнюдь не расширяет динамический диапазон, а просто ослабляет сигнал вдвое, что равноценно затемнению снимка в RAW-конвертере. Эту функцию можно даже рассматривать как вредную, поскольку использование субминимального значения ISO, провоцирует камеру на увеличение экспозиции, что при оставшемся неизменным пороге насыщения сенсора повышает риск получить клиппинг в светах.

Истинная величина динамического диапазона

Существует ряд программ вроде (DxO Analyzer, Imatest, RawDigger и пр.) позволяющих измерить динамический диапазон цифрового фотоаппарата в домашних условиях. В принципе, в этом нет большой необходимости, поскольку данные для большинства камер можно свободно найти в интернете, например, на сайте DxOMark.com .

Стоит ли верить результатам подобных испытаний? Вполне . С той лишь оговоркой, что все эти тесты определяют эффективный или, если можно так выразиться, технический динамический диапазон, т.е. отношение между уровнем насыщения и уровнем шума матрицы. Для фотографа же в первую очередь важен полезный динамический диапазон, т.е. количество зон экспозиции, которые действительно позволяют запечатлеть какую-то полезную информацию.

Как вы помните, порог динамического диапазона задан уровнем шумов фотосенсора. Проблема в том, что на практике нижние зоны, формально уже входящие в динамический диапазон, содержат всё ещё слишком много шума, чтобы их можно было с толком использовать. Здесь многое зависит от индивидуальной брезгливости – приемлемый уровень шума каждый определяет для себя сам.

Моё субъективное мнение таково, что детали в тенях начинают выглядеть более-менее прилично при отношении сигнал/шум не меньше восьми. На этом основании я определяю для себя полезный динамический диапазон, как технический динамический диапазон минус примерно три ступени.

К примеру, если зеркальная камера согласно результатам достоверных тестов обладает динамическим диапазоном в 13 EV, что очень неплохо по сегодняшним меркам, то её полезный динамический диапазон будет составлять около 10 EV, что, в общем-то, тоже весьма недурно. Разумеется, речь идёт о съёмке в RAW, с минимальным ISO и максимальной разрядностью. При съёмке в JPEG динамический диапазон сильно зависит от настроек контраста, но в среднем следует отбросить ещё две-три ступени.

Для сравнения: цветные обращаемые фотоплёнки обладают полезной фотографической широтой в 5-6 ступеней; чёрно-белые негативные плёнки дают 9-10 ступеней при стандартных процедурах проявления и печати, а при определённых манипуляциях – вплоть до 16-18 ступеней.

Подытоживая вышесказанное, попробуем сформулировать несколько простых правил, соблюдение которых поможет вам выжать из сенсора вашей камеры максимум производительности:

  • Динамический диапазон цифрового фотоаппарата в полной мере доступен только при съёмке в RAW.
  • Динамический диапазон уменьшается с ростом светочувствительности, а потому избегайте высоких значений ISO, если в них нет острой необходимости.
  • Использование более высокой разрядности для RAW-файлов не увеличивает истинный динамический диапазон, но улучшает тональное разделение в тенях за счёт большего количества уровней яркости.
  • Exposure to the right . Верхние зоны экспозиции всегда содержат максимум полезной информации при минимуме шумов и должны использоваться наиболее эффективно. При этом не стоит забывать и об опасности клиппинга – пиксели, достигшие насыщения, абсолютно бесполезны.

И главное: не стоит излишне переживать по поводу динамического диапазона вашей камеры. С динамическим диапазоном у неё всё в порядке. Ваше умение видеть свет и грамотно управлять экспозицией – намного важнее. Хороший фотограф не станет жаловаться на недостаток фотографической широты, а постарается дождаться более комфортного освещения, или изменит ракурс, или воспользуется вспышкой, словом, будет действовать в соответствии с обстоятельствами. Я вам скажу больше: некоторые сцены только выигрывают из-за того, что не укладываются в динамический диапазон камеры. Часто ненужное обилие деталей просто необходимо спрятать в полуабстрактный чёрный силуэт, делающий фотографию одновременно лаконичнее и богаче.

Высокий контраст это не всегда плохо – нужно лишь уметь с ним работать. Научитесь эксплуатировать недостатки оборудования так же, как и его достоинства, и вы удивитесь, насколько расширятся ваши творческие возможности.

Спасибо за внимание!

Василий А.

Post scriptum

Если статья оказалась для вас полезной и познавательной, вы можете любезно поддержать проект , внеся вклад в его развитие. Если же статья вам не понравилась, но у вас есть мысли о том, как сделать её лучше, ваша критика будет принята с не меньшей благодарностью.

Не забывайте о том, что данная статья является объектом авторского права. Перепечатка и цитирование допустимы при наличии действующей ссылки на первоисточник, причём используемый текст не должен ни коим образом искажаться или модифицироваться.

Динамическая компрессия (Dynamic range compression, DRC) - сужение (или расширение в случае экспандера) динамического диапазона фонограммы. Динамический диапазон , это разница между самым тихим и самым громким звуком. Иногда самым тихим в фонограмме будет звук чуть громче уровня шума, а иногда чуть тише самого громкого. Аппаратные устройства и программы, осуществляющие динамическую компрессию, называют компрессорами, выделяя среди них четыре основные группы: собственно компрессоры, лимитеры, экспандеры и гейты.

Ламповый аналоговый компрессор DBX 566

Понижающая и повышающая компрессия

Понижающая компрессия (Downward compression) уменьшает громкость звука, когда она начинает превышать определенное пороговое значение, оставляя более тихие звуки в неизменном виде. Экстремальным вариантом понижающей компрессии является лимитер . Повышающая компрессия (Upward compression), наоборот, увеличивает громкость звука, если она ниже порогового значения, не затрагивая более громкие звуки. При этом оба вида компрессии сужают динамический диапазон аудиосигнала.

Понижающая компрессия

Повышающая компрессия

Экспандер и Гейт

Если компрессор уменьшает динамический диапазон, экспандер его увеличивает. Когда уровень сигнала становится выше порогового уровня, экспандер увеличивает его еще больше, таким образом увеличивая разницу между громкими и тихими звуками. Подобные устройства часто используются при записи барабанной установки, чтобы отделить звуки одних барабанов от других.

Тип экспандера, который используется не для усиления громких, а для заглушения тихих звуков, не превышающих уровня порогового значения (например, фоновых шумов) называется Noise gate . В таком устройстве, как только уровень звука становится меньше порогового, прохождение сигнала прекращается. Обычно гейт используется для подавления шума в паузах. На некоторых моделях можно сделать так, чтобы звук при достижении порогового уровня не прекращался резко, а постепенно затухал. В этом случае скорость затухания устанавливается регулятором Decay (спад) .

Гейт, как и другие типы компрессоров, может быть частотно-зависимым (т.е. по-разному обрабатывать определенные частотные полосы) и может работать в режиме side-chain (см. ниже).

Принцип работы компрессора

Сигнал, попадающий в компрессор, разделяется на две копии. Одна копия направляется на усилитель, в котором степень усиления управляется внешним сигналом, вторая копия - формирует этот сигнал. Она попадает в устройство, называемое side-chain, где сигнал измеряется, и на основе этих данных создается огибающая, описывающая изменение его громкости.
Так устроено большинство современных компрессоров, это так называемый тип feed-forward. В более старых устройствах (тип feedback) уровень сигнала измеряется после усилителя.

Существуют различные аналоговые технологии управляемого усиления (variable-gain amplification), каждая со своими достоинствами и недостатками: ламповые, оптические с использованием фоторезистров и транзистрные. При работе с цифровым звуком (в звуковом редакторе или DAW) могут использоваться собственные математические алгоритмы или эмулироваться работа аналоговых технологий.

Основные параметры компрессоров

Threshold

Компрессор уменьшает уровень аудиосигнала, если его амплитуда первышает определенное пороговое значение (threshold). Оно обычно указывается в децибелах, при этом более низкий threshold (например, -60 dB) означает, что будет обработано больше звука, чем при более высоком пороге (например, −5 dB).

Ratio

Степень уменьшения уровня определяется параметром ratio (отношение): ratio 4:1 означает, что если входной уровень на 4 дБ превышает порог, уровень выходного сигнала будет выше порога на 1 дБ.
Например:
Threshold = −10 dB
Входной сигнал = −6 dB (на 4 dB выше порогового уровня)
Выходной сигнал = −9 dB (на 1 dB выше порогового уровня)

Важно иметь в виду, что подавление уровня сигнала продолжается и некоторое время после того, как он упадет ниже порогового уровня, и это время определяется значением параметра release .

Компрессия с максимальным значением ratio ∞:1 называется лимитированием (limiting). Это означает, что любой сигнал выше порогового уровня подавляется до порогового уровня (за исключением короткого периода после резкого увеличения входной громкости). Подробнее см. ниже «Лимитер».

Примеры различных значений Ratio

Attack и Release

Компрессор предоставляет определенный контроль над тем, как быстро он реагирует на изменение динамики сигнала. Параметр Attack определяет время, за которое компрессор уменьшает коэффициент усиления до уровня, который определяется параметром Ratio. Release определяет время, за которое компрессор, наоборот, увеличивает коэффициент усиления, или возвращает к нормальному, если уровень входного сигнала падает ниже порогового значения.

Фазы Attack и Release

Эти параметры указывают время (обычно в миллисекундах), которое потребуется для изменения усиления на определенное количество децибел, обычно это 10 дБ. Например, в этом случае, если Attack установлено на 1 мс, для уменьшения усиления на 10 дБ потребуется 1 мс, а на 20 дБ - 2 мс.

Во многих компрессорах параметры Attack и Release могут настраиваться, но в некоторых они заданы изначально и не регулируются. Иногда они обозначаются как «automatic» или «program dependent», т.е. изменяются в зависимости от входного сигнала.

Knee

Еще один параметр компресоора: hard/soft Knee . Он определяет, будет ли начало применения компрессии резким (hard) или постепенным (soft). Soft knee уменьшает заметность перехода от необработанного сигнала к сигналу, подвергнутому компрессии, особенно при высоких значениях Ratio и резких увеличениях громкости.

Hard Knee и Soft Knee компрессия

Peak и RMS

Компрессор может реагировать на пиковые (кратковременные максимальные) значения или на усредненный уровень входного сигнала. Использование пиковых значений может приводить к резким колебаниям степени компрессии, и даже к искажениям. Поэтому компрессоры применяют функцию усреднения (обычно это RMS) входного сигнала при сравнении его с пороговым значением. Это дает более комфортное сжатие, приближенное к человеческому восприятию громкости.

RMS – параметр, отражающий среднюю громкость фонограммы. С математической точки зрения RMS (Root Mean Square) – это среднеквадратическое значение амплитуды определенного количества семплов:

Stereo linking

Компрессор в режиме stereo linking применяет одинаковое усиление к обоим стереоканалам. Это позволяет избежать смещения стереопанорамы, которое может стать результатом индивидуальной обработки левого и правого каналов. Такое смещение происходит, если, например, какой-либо громкий элемент панорамирован не по центру.

Makeup gain

Поскольку компрессор уменьшает общий уровень сигнала, обычно добавляется возможность фиксированного усиления на выходе, что позволяет получить оптимальный уровень.

Look-ahead

Функция look-ahead предназначена для решения проблем, свойственных как слишком большим, так и слишком маленьким значениям Attack и Release. Слишком большое время атаки не позволяем эффективно перехватывать транзиенты, а слишком маленькое может быть не комфортным для слушателя. При использовании функции look-ahead основной сигнал задерживается относительно управляющего, это позволяет начинать компрессию заранее, еще до того, как сигнал достигнет порогового значения.
Единственным недостатком этого метода является временная задержка сигнала, что в некоторых случаях нежелательно.

Использование динамической компрессии

Компрессия используется повсеместно, не только в музыкальных фонограммах, но и везде, где нужно увеличить общую громкость, не увеличивая при этом пиковые уровни, где используется недорогая звуковоспроизводящая аппаратура или ограниченный канал передачи (системы оповещения и связи, любительское радио и т.п.).

Компрессия применяется при воспроизведении фоновой музыки (в магазинах, ресторанах и т.п.), где нежелательны какие-либо заметные изменения громкости.

Но важнейшая сфера применения динамической компрессии - музыкальное производство и вещание. Компрессия используется для придания звуку "плотности" и "драйва", для лучшего сочетания инструментов друг с другом, и особенно, при обработке вокала.

Вокальные партии в рок- и поп-музыке обычно подвергаются компрессии, чтобы выделить их на фоне аккомпанемента и добавить ясности. Специальный вид компрессора, настроенный только на определенные частоты - деэссер, используется для подавления шипящих фонем.

В инструментальных партиях компрессия также используется для эффектов, не связанных непосредственно с громкостью, например, быстро затухающие звуки ударных могут стать более продолжительными.

В электронной танцевальной музыке (EDM) часто используется side-chaining (см. ниже) - например, басовая линия может управляться бочкой или чем-то подобным, чтобы предотвратить конфликт баса и ударных и создать динамическую пульсацию.

Сжатие широко используется в широковещательной передаче (радио-, теле-, интернет-вещание) для повышения воспринимаемой громкости при одновременном уменьшении динамического диапазона исходного аудио (обычно это CD). В большинстве стран имеются правовые ограничения на мгновенный максимальный объем, который может транслироваться. Обычно эти ограничения реализуются постоянными аппаратными компрессорами в эфирной цепи. Кроме того, увеличение воспринимаемой громкости улучшает "качество" звука с точки зрения большинства слушателей.

См. также Loudness war.

Последовательное увеличение громкости одной и той же песни, ремастированной для CD с 1983 по 2000 гг.

Side-chaining

Еще один часто встречающийся переключатель компрессора – «side chain». В этом режиме компрессирование звука происходит не в зависимости от его собственного уровня, а в зависимости от уровня сигнала, поступающего на разъем, который так обычно и называется - side chain.

Этому можно найти несколько применений. Например, вокалист шепелявит и все буквы «с» выделяются из общей картины. Вы пропускаете его голос через компрессор, а в разъем side chain подаете этот же звук, но пропущенный через эквалайзер. На эквалайзере вы убираете все частоты, кроме тех, что используются вокалистом при произнесении буквы «с». Обычно около 5 кГц, но может быть от 3 кГц до 8 кГц. Если затем поставить компрессор в режим side chain, то компрессирование голоса будет происходить в те моменты, когда произносится буква «с». Таким образом получился прибор, известный как «деэссер» (de-esser). Такой способ работы называется «частотно-зависимым» (frequency dependent).

Еще одно применение этой функции носит название «ducker». Например, на радиостанции музыка идет через компрессор, а слова диджея - через побочную цепь. Когда диджей начинает болтать, громкость музыки автоматически уменьшается. Этот эффект можно с успехом применять и в записи, например, уменьшать громкость клавишных партий во время пения.

Brick wall limiting

Компрессор и лимитер работаеют примерно одинаково, можно сказать, что лимитер, это компрессор с высоким Ratio (от 10:1) и, обычно, низким Attack time.

Существует понятие Brick wall limiting - лимитинг с очень высоким Ratio (от 20:1 и выше) и очень быстрой атакой. В идеале, он вообще не позволяет сигналу превысить пороговый уровень. Результат будет неприятным на слух, но зато это предотвратит повреждение звуковоспроизводящей техники или превышение пропускной способности канала. Многие производители интегрируют в свои устройства лимитеры именно с этой целью.

Clipper vs. Limiter, soft and hard clipping