Что такое динамический диапазон звука: что это такое и как он влияет на мастеринг музыки — SAMESOUND

Содержание

что это такое и как он влияет на мастеринг музыки — SAMESOUND

Динамический диапазон — многозначительный термин, использующийся в музыкальной индустрии для описания различных характеристик оборудования и сигнала. Несмотря на использование в разных областях производства музыки, диапазон служит важнейшей характеристикой при мастеринге. Из этого материала вы узнаете, что такое динамический диапазон, а также поймёте, в чём его важность.


Динамический диапазон (англ. Dynamic Range) — один из самых популярных терминов в музыкальном мире. В зависимости от контекста им обозначают производительность аудиосистем, количество хедрума в аудиофайле и ряд других вещей.

Несмотря на многозначительность термина, динамический диапазон играет одну из важнейших ролей в вопросе мастеринга. Именно эта характеристика служит ключом к громкости и описывает влияние компрессии и лимитирования на итоговый сигнал.

Что такое динамический диапазон

В зависимости от контекста использования, динамический диапазон обозначает разные вещи:

  • В производстве музыки динамический диапазон описывает разницу в уровне громкости между самым громким и самым тихим звуком в аудиофайле. Характеристика измеряется в децибелах (дБ).
  • Для аудиофайлов и отдельных дорожек в DAW динамический диапазон описывает разницу в децибелах между самым громким и самым тихим моментом в аудиофайле на дорожке.
  • В готовых миксах и изданных треках показатель сообщает о расстоянии, которое преодолевает сигнал от точки полной тишины до итогового уровня громкости.
  • Для устройств воспроизведения и записи диапазон определяет границы возможностей оборудования. Показатель сообщает, насколько тихие и громкие сигналы могут быть правильно записаны и воспроизведены этими устройствами.

Динамический диапазон можно воспринимать как пространство между минимальным уровнем шума (нойз-флор) и точкой отсечения, в которой образуется клиппинг.

Аудиоустройства не способны записать или воспроизвести сигнал за пределами минимального уровня шума. Нам не удастся услышать такой звук: для слуха он будет не отличим от окружающего шума.

Когда сигнал пересекает точку отсечения, вершины звуковой волны резко обрезаются — в звуке появляется неприятная резкость и искажения.

Динамика в мастеринге

Динамический диапазон подсказывает количество обработки сигнала (компрессии и лимитирования) при мастеринге.

Большой динамический диапазон — меньше компрессии, меньше громкость.

Малый динамический диапазон — больше компрессии, больше громкость.

Звуковая волна состоит из пиков и спадов — вершин и впадин. Расстояние между пиками и спадами напрямую зависит от динамики сигнала: чем динамичнее звук, тем больше дистанция между вершинами и впадинами. Такое поведение напрямую влияет на подход к мастерингу, а значит и на само звучание музыки.

Тихий и динамичный мастеринг

Сильная динамика и большое расстояние между пиками и спадами приводит к более явному звучанию транзиентов — начальных импульсов сигнала (кстати, вот здесь мы подробнее рассказываем о транзиентах).

Большой динамический диапазон сигнала

Такие моменты сильно выделяются на общем фоне: транзиенты слышны в мельчайших подробностях и обладают большей детализацией. То же справедливо и для других переходных состояний звука: спадам и хвостам сигналов, моментам тишины и паузам, крещендо и декрещендо (диминуэндо).

Из-за того, что транзиенты и переходные звуки обладают сильной динамикой, слишком активное сжатие и лимитирование приведёт искажениям, клиппингу и пикам при каждом проявлении транзиентов. По этой причине миксы с большим динамическим диапазоном отличает более низкий уровень громкости и малое количество компрессии: трек делают тише, чтобы оставить достаточно места для самых активных элементов.

Тихие динамичные мастер-треки чаще всего встречаются в живых и импровизационных стилях (джазе, блюзе, фанке и фьюжн), а также в классической и академической музыке.

Громкий и компрессированный мастеринг

Громкость часто служит основным элементом привлечения внимания слушателей. Громкая музыка моментально обращает на себя внимание, что особенно ценится в роке и метале, различных -корах, а также некоторых стилях электронной музыки.

Малый динамический диапазон сигнала

Для достижения максимально возможной громкости и некоторой агрессии в звуке мастеринг-инженеры уменьшают динамический диапазон трека. Благодаря этому микс звучит более плотно и монолитно, а его громкость может быть практически вплотную приближена к допиковым значениям.

Уменьшение динамического диапазона происходит с помощью компрессоров и лимитеров. Важную роль здесь играет баланс между громкостью и естественностью: чем громче звук, тем более искусственно он звучит после компрессии.

Самая сложная задача в мастеринге — добиться максимально возможной громкости без полного уничтожения микса. Переизбыток громкости приводит к искажению сигналов, появлению артефактов, клиппинга и других недостатков.

Итоговый уровень громкости напрямую зависит от модели распространения трека: каждая платформа и носитель обладает собственными рекомендациями по общей громкости музыки (да, те же YouTube и SoundCloud по разному сжимают музыку). Выводить громкость вплотную к пиковым отметкам не нужно — сервисы и носители могут уменьшить или увеличить динамический диапазон, что попросту уничтожит микс.

ВОЙНА ГРОМКОСТЕЙ

Разница в требованиях стала одной из причин Войны громкостей, проявившейся в виде бездумного повышения уровня громкости издаваемых релизов в 2000-х годах. Лейблы и издатели негласно соревновались в специальной дисциплине «Кто издаст более громкий релиз?», не обращая внимания на то, как страдает сама музыка.

В Интернете даже запустили базу данных, в которой представлены данные о громкости и динамическом диапазоне десятков тысяч релизов, выпущенных в 2000-е.

Итоговая динамика

Динамический диапазон выглядит как эдакая тонкость для эстетов от мира производства музыки, но внешность обманчива. Характеристика является одним из важных факторов качественного звучания вашей музыки: информация о диапазоне подсказывает возможности аппаратуры и рассказывает, как будет звучать музыка после мастеринга.

What’s Your Reaction?

Динамический диапазон — кому нужен он? • Stereo.ru

Возможно, по прошлым колонкам у кого-то сложилось впечатление, что я призываю не скулить, переходить на сетевые плееры и HD-контент, и все автоматом станет окей. Это не совсем так. Сравнивая несколько изданий одного альбома, прежде всего меня интересует не максимальное количество бит, а максимальная ширина динамического диапазона.

Чтобы узнать, нуждается ли в нем ваша акустика — поставьте простой эксперимент. Запустите любой компакт-диск примерно до 90-го года выпуска, и прибавьте газку на усилителе. Звук остался плоским, вялым и невыразительным, как и на малой громкости, да? Я вас поздравляю — акустика справляется только с компрессированными записями.

В 80-х компакт-диски причислялись к High-End. Динамический диапазон уважали и принимали за точку отсчета самое громкое место в альбоме, по которому и выстраивали CD-мастеринг. В начале 90-х пики цифрового сигнала стали потихоньку подтягивать к лимиту в 0 дБ. Громче было нельзя, иначе звуковая волна обрезалась, и не просто, а с искажениями, называемыми клиппингом.

Я отлично помню тот переломный момент, когда вдруг поперли громкие, раскатистые альбомы вроде «The Fat of the Land» (1997) у The Prodigy или «Gran Turismo» (1998) у The Cardigans. Я тогда еще не знал, что во второй половине 90-х на студиях распространились цифровые компрессоры и лимитеры, позволяющие эффективно отсекать пики сигнала и подтягивать к 0 дБ уже основную музыкальную партию, делая ее еще громче, громче и громче. Не скрою, что тогда мне очень понравилось звучание этих новых альбомов. К тому же моя hi-fi система попросту не позволяла раскрыть потенциал «тихих» CD с большим динамическим диапазоном. А свежие издания звучали действительно лихо — и не только у меня. Это и был решающий аргумент в знаменитой loudness war, начавшейся еще в виниловую эпоху, когда продюсеры и музыканты обратили внимание, что громкие синглы лучше привлекают публику. C легкой руки лейбла Motown появился термин «Hot Mastering».

Позже мне стало очевидно, что эти накачанные анаболиками треки невозможно слушать на большой громкости — музыка получается зычная, но пустая, как барабан. Сегодня практически 100% новых записей и ремастеров издается с компрессией динамики. Тенденции не избежали даже тестовые CD. Например, таковой сделалась серия демо-дисков Focal JMLab, начиная с 2000 года. Исключения составляют лейблы с классической музыкой и специальные издания вроде тех, которые делают на Mobile Fidelity Sound Lab.

В loudness war есть своя логика — ведь музыку чаще всего слушают в автомобилях, портативе и мультимедийных системах — фонограмма с большой амплитудой прозвучит там абсолютно беспомощно.

На хорошей, чуткой акустике слышно, что больше всего при компрессии страдает вокал. Студийными эффектами сцену можно сделать сколь угодно широкой, добавить баску, но голос в зажатой динамике потеряет в живости и локализации. Он размажется где-то там, между третьим и четвертым инструментами.

Однако не стоит отчаиваться. Спецификации современных АС с тугими длинноходными динамиками чувствительностью ниже 88 дБ не описывают этот нюанс, но большинство из них адаптировано именно под компрессированный контент. Иначе бы вы не накупили себе столько ремастеров. Самые мудрые и понимающие издатели выпускают (например, Пол Маккартни) в двух вариантах — полнодиапазонном и традиционном «громком». Надеюсь, это станет стандартной процедурой в индустрии. А пока, если интересно получить на руки цифровое измерение динамического здоровья свой аудиоколлекции, поставьте к плееру Foobar соответствующий плагин. Познавательное занятие, честно скажу.

Динамический диапазон — Музыкальный Корпускул

Искусство динамического диапазона
Динамический диапазон – это разница между громкими и тихими местами музыки. Его не следует путать с громкостью и абсолютным уровнем. Динамический диапазон современной популярной музыки обычно всего лишь 6-10 децибел, но иногда в угоду различным музыкальным формам он может быть и 1 децибел, и даже больше 15 dB. В типичной поп-музыке тихие места на 8-15 dB ниже самых громких, могут быть эффективны лишь на короткие промежутки времени, но в академической музыке, джазе и других акустических формах, такие тихие места могут быть продолжительны.

Микродинамика и Макродинамика
Микродинамика – это чувство музыкального ритма, пульса музыки. Макродинамика – это различия в громкости между различными частями одного произведения или между цепочкой произведений. Обычно динамические процессоры (компрессоры, экспандеры) лучше всего подходят для микродинамических манипуляций, а ручное изменение громкости – для макродинамических. Микро и макродинамики «идут рука об руку» — множество хороших композиций претерпевали как микро (общая компрессия), так и макро (крещендо, деменуэндо) изменения.

Искусство уменьшения динамического диапазона
Динамика внутри одной песни или в цепочке песен очень критичная для творческих музыкантов и композиторов. Для нас – инженеров, основной парадигмой качества звука должен выступать живой концерт; мы должны на слух определять поможет или изменит музыке изменение динамики. В живом выступлении хор звучит громче речитатива, вся группа громче солиста, а кульминация звучит громче остальных частей. Множество записей уже до мастеринга прошли множество стадий динамической обработки, и дальнейшее её применение может лишь ухудшить прозрачность и качество звука. Однако, обычно носитель звука и среда, в которой он воспроизводится, не могут позволить использовать весь широкий динамический диапазон реальной жизни, поэтому записи отдаются на мастеринг, чтобы повысить уровень тихих пассажей и/или понизить уровень громких. Мы можем уменьшить динамический диапазон (скомпрессировать), если он слишком велик для типичной домашней обстановки, но можем с помощью этой техники сделать микс более впечатляющим, толстым, более цельным – вытащить наружу внутренние детали, а также возможно исправить предыдущие динамические изменения, если они были чрезмерными. Опыт подскажет нам, что пассаж слишком тихий. Для примера, тихое вступление сразу после громкой песни – следует поднять по громкости, но такой же тихий по громкости пассаж в середине песни – может быть вполне к месту. Это потому, что человеческий слух адаптирует свою чувствительность к громкости за довольно средний промежуток времени и не может адекватно реагировать на резкие перепады громкости.
Инженеры ЛукасФильм обнаружили, что даже наличие правильной мониторной системы и качественного помещения для сведения и дубляжа фильмов с уровнем шума NC-20, не гарантирует, что фильм будет также правильно звучать в кинозале. Во время тестов в залах выяснилось, что некоторые диалоги «съедались» шумом кондиционирования и шумом самих зрителей. Поэтому они создали так называемый «Попкорновый» генератор подобного шума – его добавляют в мониторы при сведении фильма, когда хотят протестировать тихие места. Для подобного тестирования у меня на студии Digital Do-main есть специальная шумная комната с кондиционером, вентиляторами и прочими шумовыми эффектами, где я проверяю звук своих работ.

Искусство увеличения динамического диапазона
Также может сделать звук более впечатляющим, увеличивая интенсивность пиков. Главное вовремя понять, что увеличение диапазона уже создает дефект – музыкальный интерес может быть расширен разнообразностью – но слишком много разнообразия – также плохо, как слишком много однообразного. Также еще одно применение увеличения динамического диапазона – это восстановление его после неправильной предыдущей работы или компрессии аналоговой ленты.

Четыре различия изменения динамического диапазона
Мы всегда используем термин компрессия для сужения динамического диапазона и экспандирование — для его увеличания. Эти термины подразделяются каждый на повышающую и понижающую компрессии, и на повышающее и понижающее экспандирование. Понижающая компрессия – самая популярная форма динамических модификаций, делающая уровень громких пассажей тише. Лимитирование – частный случай понижающей компрессии с очень высоким соотношением (ratio) Повышающая компрессия – поднимает уровень тихих пассажей. Часто используется в энкодерах Dolby или других шумоподавляющих системах; в системах автоматического контроля уровня AGC, который используют радиостанции; а также этот тип компрессии звука широко используется в бытовых видео-камерах. В Главе XI мы рассмотрим более эффективное применение повышающей компрессии. Для ясности – термин компрессия мы применяем всегда имея ввиду понижающую компрессию, пока нам не нужно специально указать, что компрессия повышающая. Повышающее экспандирование делает уровни громких пассажей ещё громче. В умелых руках такие приборы могут быть использованы для расширения динамики, увеличения музыкального впечатления или для восстановления потерянной динамики. Применяются в реставрации пиков и воспроизводящей части Dolby SR, в процессоре DBX Quantum, в различных плагинах Waves, а также в Weiss DS1-MK2. Понижающее экспандирование – самый распространенный тип. Делает тихие места еще тише. В основном применяется для уменьшения шума. Встречается в классических гейтах Kepex и Drawmer, в системах шумоподавления Dolby и аналогичных им; в процессорах типа TC Finalizer; а также во встроенных гейтах микшерных консолей. Для ясности – термин экспандер мы используем для понижающего типа экспандирования, пока нам не нужно обозначить, что экспандирование повышающее.

Искусство ручного изменения громкости – макродинамические манипуляции
Во время сведения тяжело концентрироваться одновременно на внутреннем балансе микса и на динамических движениях внутри музыки. Иногда инженеры намеренно занижают мастер фейдер во время микширования, чтобы избежать перегрузки, что лишает кульминацию её мощного импульса. Во время мастеринга мы можем расширить хорошо-сбалансированный рок или поп микс, создавая динамические движения музыки. Аккуратная игра уровнем может сделать очень много – вы удивитесь, что может сделать лишь 1 децибел разницы. Также важно в этом случае то, что мы особо-то и не вмешиваемся в уровни композиции, клиент будет спокоен.

Как и когда двигать фейдер
Художественные изменения уровней действительно могут улучшить произведение, но их надо делать наиболее музыкально. Внутренние изменения уровня незаметны, если делаются вручную как минимум на ¼ dB за раз, что намного лучше использования компрессоров или экспандеров, которые ведут себя более агрессивно. Когда вы изменяете уровни – сконцентрируйтесь на натуральном движении музыки: если музыканты пытаются сделать крещендо – понижение уровня на нём будет выглядеть плохо, сведет на нет музыкальный посыл. Очень тихие пассажи требуют особого внимания. Если кульминация песни звучит так как надо, а интро слишком тихо – следует поднять интро, найдя правильный метод редактирования. Например: — длинное, постепенное понижение уровня к концу интро; — серия ½ или ¼ dB редакций, понижая звук шаг за шагом в критические моменты. Очень действенно, если мы не хотим, чтобы слушатель понял, что мы мухлюем с уровнями громкости; — быстрое изменение уровня в месте стыковки поднятого интро и обычного продолжения песни.

Искусство изменения внутренних уровней песни
Некоторые тихие пассажи надо поднимать, но если музыканты специально старались сыграть их таким образом, то сильное поднятие фейдера может похоронить этот эффект. Поэтому нам важно понимать, в каком случае и как далеко мы можем поднять тихое место без потери музыкального замысла, а также важно понимать с какой скоростью делать изменения, чтобы они были незаметными. В DAW физические движения фейдеров заменяются кроссфейдами или прописыванием кривых автоматизации. Главное – чтобы все манипуляции были незаметными для слушателя. Если нам нужно опустить громкий пассаж – лучшее место, где это можно сделать – в конце тихого пас-сажа перед громким. В этом случае громкий пассаж не потеряет свой импульс, человеческий слух воспримет его так, как и было задумано.
Источник: БОБ КАТЦ Мастеринг Аудио. Искусство и Наука Второе Издание
Перевод: Антон Лабазников

PETELIN.RU | Статьи | Динамическая обработка аудиосигналов на ПК. Часть I

PETELIN.RU > Статьи > Динамическая обработка аудиосигналов на ПК. Часть I

Уроки музыки на компьютере

Урок 10.
Динамическая обработка аудиосигналов на ПК.
Часть I

Юрий Петелин

В предыдущей статье я рассказал о программных средствах устранения шума и искажений звука, в том числе перечислил те операции по «звукочистке», которые необходимо проделать с записью песни, начиная с исправления ошибок в установке микрофона и завершая мастерингом, выполненным так, чтобы группа композиций, записанная на диск, с эстетической точки зрения представляла собой единое целое. Данная тема настолько серьезна, что ей стоит посвятить несколько ближайших статей.

Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы профессиональных студий, но может быть приближен к ним.

Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как «суперпроект». Царь Петр при смерти, борьба за престол. Страсти бушуют… По другим каналам следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и снова ведут свое следствие, потому что, оказывается, все еще «кто-то кое-где у нас порой честно жить не хочет»… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук. Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в «суперпроекте»: когда на мгновения стихают стоны умирающего царя и крики приближенных, отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные механизмы камер.

Напрашиваются такие выводы:

1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное, денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.

2. Некоторые профессионалы не применяют средства компьютерного шумоподавления. Не очень понятно, почему. Не знают о них? Некогда почитать специальную литературу? Но и элементарных сведений, что содержатся на пяти страницах моей предыдущей статьи, для начала хватило бы.

3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять приборы динамической обработки.

Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным. Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу «Sonar. Секреты мастерства». Кстати, ничто не мешает вам попробовать свои силы. В музыкальном сборнике на следующем подобном диске вполне может оказаться и ваша композиция.

Итак, динамическая обработка. Формально она заключается в изменении динамического диапазона аудиосигналов. Но для применения ее во благо качеству звука этой фразы явно недостаточно. Поэтому начнем с начала.

Уровень и динамический диапазон звукового сигнала

Источник звуковых колебаний излучает в окружающее пространство энергию. Количество звуковой энергии, проходящей за секунду через площадь в 1 м2, расположенную перпендикулярно направлению распространения звуковых колебаний, называют интенсивностью (силой) звука.

Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт. Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа — от 140 до 3200 мкВт.

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений (интенсивностей). Одной из опорных величин этого диапазона является стандартный порог слышимости - эффективное значение звукового давления, создаваемого гармоническим звуковым колебанием частоты 1000 Гц, едва слышимым человеком со средней чувствительностью слуха.

Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление pзв0 = 2Ч10-5 Па.

Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При восприятии звука такой интенсивности у человека появляются болевые ощущения.

В области звуковых давлений, существенно превышающих стандартный порог слышимости, величина ощущения пропорциональна не амплитуде звукового давления pзв, а логарифму отношения pзв/pзв0. Поэтому звуковое давление и интенсивность звука часто оценивают в логарифмических единицах децибелах (дБ) по отношению к стандартному порогу слышимости.

Диапазон изменения звуковых давлений от абсолютного порога слышимости до болевого порога составляет для разных частот от 90 дБ до 130 дБ.

Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется адаптацией слуха.

Таким образом, порог слышимости в значительной степени зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это свидетельствует о том, что помеха маскирует полезный сигнал.

Слуховой аппарат человека обладает определенной инерционностью: ощущение возникновения звука, а также его прекращения появляется не сразу.

Аудиосигнал является случайным процессом. Его акустические или электрические характеристики непрерывно изменяются во времени. Пытаться отследить случайные изменения реализаций этого хаоса — занятие, имеющее не много смысла. Обуздать его величество случай, придать ему черты детерминированности можно, используя усредненные параметры, такие, как уровень аудиосигнала.

Уровень аудиосигнала характеризует сигнал в определенный момент и представляет собой выраженное в децибелах выпрямленное и усредненное за некоторый предшествующий промежуток времени напряжение аудиосигнала.

Под динамическим диапазоном аудиосигнала понимают отношение максимального звукового давления к минимальному или отношение соответствующих напряжений. В таком определении нет сведений о том, какое давление и напряжение считается максимальным и минимальным. Наверное, поэтому определенный таким образом динамический диапазон сигнала, называется теоретическим. Наряду с этим динамический диапазон аудиосигнала можно определить и экспериментально как разность максимального и минимального уровней для достаточно длительного периода. Это значение существенно зависит от выбранного времени измерения и типа измерителя уровней.

Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные с помощью приборов, составляют в среднем:

— 80 дБ для симфонического оркестра

— 45 дБ для хора

— 35 дБ для эстрадной музыки и солистов-вокалистов

— 25 дБ для речи дикторов

При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные) сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.

Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2 с даже если партитура композиции ему заранее известна. Это приводит к погрешности в поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.

Усилители, акустические системы да и уши человека нужно защищать от перегрузок, вызванных резкими скачкообразными изменениями амплитуды аудиосигнала - ограничивать сигнал по амплитуде.

Динамический диапазон сигнала нужно согласовывать с динамическими диапазонами устройств записи, усиления, передачи.

Для увеличения дальности действия FM радиостанций динамический диапазон аудиосигнала нужно сжимать. Для снижения уровня шума в паузах динамический диапазон желательно увеличивать.

В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое достигается резким сужением ее динамического диапазона.

Звуковая волна (огибающая громкости) фрагмента оперы С. Рахманинова «Алеко»,

и современной танцевальной музыки.

В классической музыке важны нюансы, танцевальная музыка должна быть «сильнодействующей».

Этим диктуется необходимость в применении устройств автоматической обработки уровней сигналов.

Устройства динамической обработки

Устройства автоматической обработки уровней сигналов можно классифицировать по ряду критериев, наиболее важные среди них: инерционность срабатывания и выполняемая функция.

По критерию инерционности срабатывания различают безинерционные (мгновенного действия) и инерционные (с изменяющимся коэффициентом передачи) авторегуляторы уровня:

Когда на входе безинерционного авторегулятора уровень сигнала превышает номинальное значение, на выходе вместо синусоидального сигнала получается трапецевидный. Хотя безинерционные авторегуляторы просты, их применение приводит к сильным искажениям.

Инерционным называется такой авторегулятор уровня, у которого коэффициент передачи автоматически изменяется в зависимости от уровня сигнала на входе. Эти авторегуляторы уровня искажают форму сигналов только в течение незначительного интервала времени. Подбором оптимального времени срабатывания такие искажения можно сделать малоощутимыми на слух.

В зависимости от выполняемых функций инерционные авторегуляторы уровня подразделяют на:

  • Ограничители квазимаксимальнных уровней

  • Автостабилизаторы уровня

  • Компрессоры динамического диапазона

  • Экспандеры динамического диапазона

  • Компандерные шумоподавители

  • Пороговые шумоподавители (гейты)

  • Устройства со сложным преобразованием динамического диапазона

Основной характеристикой устройства динамической обработки служит амплитудная характеристика - зависимость уровня выходного сигнала от уровня сигнала на входе.

Ограничитель уровня (лимитер) — это авторегулятор, у которого коэффициент передачи изменяется так, что при превышении номинального уровня входным сигналом уровни сигналов на его выходе остаются практически постоянными, близкими к номинальному значению. При входных сигналах, не превышающих номинального значения, ограничитель уровня работает как обычный линейный усилитель. Лимитер должен реагировать на изменение уровня мгновенно.


Амплитудная характеристика лимитера

Автостабилизатор уровня предназначен для стабилизации уровней сигналов. Это бывает необходимо для выравнивания громкости звучания отдельных фрагментов фонограммы. Принцип действия автостабилизатора аналогичен принципу действия ограничителя. Отличие заключается в том, что номинальное выходное напряжения автостабилизатора приблизительно на 5 дБ меньше номинального выходного уровня ограничителя.

Компрессор - такое устройство, коэффициент передачи которого возрастает по мере уменьшения уровня входного сигнала. Действие компрессора приводит к повышению средней мощности и, следовательно, громкости звучания обрабатываемого сигнала, а также к сжатию его динамического диапазона.


Амплитудная характеристика компрессора

Экспандер имеет обратную по отношению к компрессору амплитудную характеристику. Применяют его в том случае, когда необходимо восстановить динамический диапазон, преобразованный компрессором.


Амплитудная характеристика экспандера

Компандер - система, состоящая из последовательно включенных компрессора и экспандера. Она используется для снижения уровня шумов в трактах записи или передачи звуковых сигналов.

Пороговый шумоподавитель (гейт) — это авторегулятор, у которого коэффициент передачи изменяется так, что при уровнях входного сигнала меньше порогового амплитуда сигнала на выходе близка к нулю. При входных сигналах, уровень которых превышает пороговое значение, пороговый шумоподавитель работает как обычный линейный усилитель.

Авторегуляторы для сложного преобразование динамического диапазона, имеют несколько каналов управления. Например, сочетание ограничителя, автостабилзатора, экспандера и порогового шумоподавителя позволяет стабилизировать громкость звучания различных фрагментов композиции, выдерживать максимальные уровни сигнала и подавлять шумы в паузах.

Структура устройств динамической обработки

Инерционный регулятор уровня имеет основной канал и канал управления. Если сигнал подается в канал управления со входа основного канала, мы имеем дело с прямой регулировкой, а если с выхода — с обратной.

Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию задержки и регулируемый элемент. Последний под воздействием управляющего напряжения способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой содержит в себе все перечисленные элементы за исключением линии задержки.

Принципиально важные элементы канала управления - детектор и интегрирующая (сглаживающая) цепь. До тех пор пока напряжение на входе схемы не превышает порогового (опорного), канал управления не вырабатывает управляющего сигнала, и коэффициент передачи регулируемого элемента не изменяется. При превышении порога детектор вырабатывает импульсное напряжение, пропорциональное разности текущего значения сигнала и опорного напряжения. Интегрирующая цепь усредняет разностное напряжение и вырабатывает управляющее напряжение, пропорциональное уровню сигнала на входе канала управления.

Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная возможность устранения нежелательных переходных процессов. Перепады уровня могут быть обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки. Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.

Временные характеристики

Кроме величины опорного (порогового) напряжения, как правило, регулировать можно время интегрирования сглаживающей цепи. При малом времени интегрирования канал управления фактически является пиковым измерителем уровня, при большом - среднеквадратическим. В высококачественных аппаратных устройствах динамической обработки (и во всех программных) имеется возможность изменения времени реакции канала управления на события двух типов:

1. Превышение порогового значения при возрастании уровня сигнала (момент включения устройства динамической обработки).

2. Спад уровня сигнала ниже порогового значения (момент выключения устройства динамической обработки).

Итак, задача канала управления заключается в обнаружении момента пересечения аудиосигналом порога, измерении уровня аудиосигнала относительно порога и выработке управляющего напряжения.

Существо обработки зависит от вида характеристики регулируемого элемента основного канала. Например, если с ростом управляющего напряжения, подаваемого на регулируемый элемент, его коэффициент передачи уменьшается, то получается компрессор, если увеличивается, то экспандер.

В основном канале, как правило, можно также изменять коэффициенты передачи усилителей и время срабатывания регулирующего элемента при его включении и выключении. Чтобы реализовать сложные алгоритмы динамической обработки, нужно использовать не один, а несколько основных каналов и каналов управления.

Для оценки инерционности устройств динамической обработки введены две временные характеристики: время срабатывания и время восстановления.

Для регулируемых звеньев всех устройств динамической обработки, кроме шумоподавителя, срабатыванием принято считать реакцию устройства на увеличение уровня сигнала, а восстановлением — на его уменьшение. Для шумоподавителя это соответственно уменьшение усиления при пропадании полезного сигнала и восстановление усиления при появлении полезного сигнала.

На рисунке приведен пример резкого увеличения уровня сигнала (звуковая волна вверху) и результата отработки скачка уровня компрессором. Заметна задержка в срабатывании компрессора после появления скачка и запаздывание с выключением после завершения пика сигнала.


Проявление инерционности устройства динамической обработки

Выбор временных параметров устройств динамической обработки в основном определяется назначением и типом устройства.

Инерционные ограничители уровня, предназначенные для защиты мощных усилительных и акустических систем от перегрузок, должны иметь минимальное (стремящееся к нулю) время срабатывания. Однако с учетом того, что аудиосигналы нарастают не мгновенно, это теоретически обоснованное требование на практике смягчается. Для ограничителей уровня выбирают время срабатывания в пределах 0,5 — 1,0 мс, а время восстановления 1,5 с. Для речевых компрессоров время срабатывания должно составлять 1 — 2 мс, а время восстановления — 300 мс. У музыкальных компрессоров эти параметры, как правило, выбирают оперативно в соответствии с динамическими свойствами музыки. Особенно критично время восстановления.

Именно неправильный выбор временных параметров компрессора и является одной из причин плохого звука в фильмах, о которых шла речь в начале статьи. Кроме этого: не те микрофоны, не там расположены, не те устройства динамической обработки, шумящая аппаратура… Конечно, звукооператоры могут ссылаться на сложные условия записи звука в неприспособленных помещениях. Но все познается в сравнении. Если вы иногда смотрите сериал «Убойная сила 2», то не могли не заметить, что в нем речь персонажей разборчива, музыка в звуковую ткань вплетена очень естественно, а звук не замаскирован такими шумами, которые бы не соответствовали замыслу режиссера, даже в том случае, когда съемки ведутся на самом настоящем рынке.

Продолжение

Обсуждаем сжатие динамического диапазона / Хабр

Совсем недавно мы обсуждали старый новый звук высокого разрешения. Эту тему изначально поднял Стив Гуттенберг. Иногда мы отталкиваемся от оценок Стива в попытке найти свои решения и ответы на вопросы.

Сегодня мы решили привести основные моменты из очередного материала эксперта.

Стив говорит об альбоме Стивена Уилсона от MA Recordings и Reference Recordings. Он приводит его в качестве примера того, насколько хорошим может быть цифровой звук. Но это редкость в эпоху борьбы за громкость и сжатие.

Суть сжатия динамического диапазона в том, что оно уменьшает естественное соотношение между самым громким и самым тихим звуком на записи. Конечно, сильно сжатая музыка – это не новое веяние. Стив приводит в качестве примера альбомы Motown 60-х годов, Led Zeppelin и альбомы Wilco и Radiohead.

«Сжатие применяется на всех этапах создания музыки, поэтому часть динамического диапазона может быть давно утеряна к тому моменту, когда мастеринг-инженер выполняет последний прогон.

Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия.

С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей»


На ГТ достаточно активно обсуждают тему компрессии. В одном из материалов были разобраны основные типы сжатия и рекомендации по работе с этим инструментом.

Стив замечает, что сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Исходя из данного положения дел, достаточно сложно сказать, как звучали инструменты и вокальная партия в самом начале процесса.

С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков. Аналогичная ситуация и с инструментами но, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы.

Парочка интересных обсуждений на основе наших материалов:

Что такое динамический диапазон (DR) и его влияние на качество звучания

При выборе музыкальных дисков (CD) большое, если не решающее, значение для слушателя играет динамический диапазон записи (DR). Именно из-за сознательно суженного (компрессированного) звукорежиссером динамического диапазона записи на CD могут возникнуть претензии к звучанию.

Компрессия по звуковому диапазону применяется все чаще не только на этапе финальной подготовки диска. Любая компрессия DR негативно сказывается на впечатлениях при прослушивании. Если у вас при прослушивании CD остается стойкое ощущение каши и сумбура, «грязного» звука — это признак того, что диск, скорее всего, немилосердно сжат по динамическому диапазону.

Что же такое динамический диапазон и для чего его вообще нужно сжимать?

Динамический диапазон — это диапазон между самыми тихими и самыми громкими звуками на фонограмме. Естественно, чем он больше, тем более тонко и точно будет подан музыкальный материал, где в трехмерном пространстве будет слышно все — от турбуленции воздуха от дирижерской палочки, до выстрела из пушки. Исходя из сказанного, сжимать динамический диапазон не нужно, его сжатие можно воспринимать как уродование звука.

Во многих сложно сочиненных и мастерски исполненных музыкальных произведениях динамический диапазон очень большой и есть места где музыканты играют крайне тихо,  а есть, где нарастает экспрессия и музыка грохочет. При прослушивании, в таких композициях устанавливается громкость усилителя достаточно высоко и становятся прекрасно слышны, как самые тихие звуки, так и по мере нарастания, очень громкие.

В переносных устройствах (смартфоны, планшеты) стоят маломощные усилители, которые, сомнительно, что могут все это отыграть в полном диапазоне с приемлемой громкостью. Поэтому стали применять компрессию — самые тихие звуки по громкости подтягивают к самым громким (получается фактически, что начинают шепотом орать), динамический диапазон сужается, но громкость в целом возрастает на 30%, что плюс для мобильных устройств, которые прослушиваются в агрессивной для прослушивания среде (шумная улица, метро). Таким образом, «музыка для мобильников» во всех случаях — это компромисс между качеством и удобством. Производители готовы пожертвовать качеством звучания ради любителей мобильной музыки, но портят в итоге музыку для всех.

На примере альбома группы ZZ Top — уродование звука более поздними релизами. В ремастере 2008 года уже даже не угадываются первоначальные контуры. Щелкните на картинку для отображения в динамике.

Меломаны столкнулись с нелегкой задачей подбора для своих коллекции CD, не изуродованных компрессией динамического диапазона, что сейчас становится сейчас всё более неразрешимой проблемой.

Чтобы определить DR любого музыкального произведения, достаточно установить плагин Dynamic Range Meter измеряющий динамический диапазон в проигрывателе foobar2000. Точнее сказать, он измеряет некий пик-фактор — разницу между пиковыми уровнями и RMS (среднеквадратичным значением уровня звука в альбоме или аудиотреке). Если значение пик-фактора DR фонограммы равно 14 — это великолепный показатель, а выше 15 — близко к фантастике, но следует понимать, что этот показатель будет разным для жанров в которых исполняется музыка.

Так для рок-музыки в целом хороший результат начинается с DR 10. Например, альбом группы Nazareth «Sound Elixir» на CD имеет DR=10 и при этом прекрасно звучит, благодаря использованию электронных инструментов. Для тяжелой музыки этого может быть вполне и достаточно, если музыкантами не были использованы сильные звуковые перепады. Однако, более обширнейший динамический диапазон потребуется для воспроизведения акустических инструментов — гитары, саксофона и тд. В таких случаях порадует разница диапазона от 13 до 15.

В целом большинство добротных CD показывает DR от 11 до 14. При этом встречаются диски имеющие динамический диапазон равный 15 (например, группа Телевизор «Отечество иллюзий») и даже 18. Диски с большим DR слушаются с огромным удовольствием — их звучание открытое, естественное, лишенное цифровой сухости и тяжеловесности. 

Таблица минимального DR в соответствии с музыкальным стилем.

Так, если звучание диска грязновато, но терпимо, то скорее всего, это компрессированный по динамическому диапазону диск со значением не более 8. С таким значением идут многие ранние концерты группы Nazareth и других — это удручает, так как такая интересная и богатая на инструменты музыка достойна лучшего качества. Искреннее недоумение вызывает, когда априори аудиофильские исполнители выпускают записи своих концертов с сильной компрессией. Например диск Sade «Soldier of Love» выпущенный в 2010 (!) году имеет DR динамического диапазона равный всего лишь 10. При этом, композиции наполнены прекрасным женским вокалом и акустическими инструментами. Здесь компрессия диапазона явно слышна и  сильно разочаровывает. Становится непонятно для кого тогда подобные CD выпускаются по-принципу — если для аудиофилов такое качество мало пригодно к прослушиванию, а музыка имеет явно не коммерческий характер.

Сомнительно что сегодня кто-нибудь будет слушать на улице музыку с переносного CD-проигрывателя, когда в мобильной среде вместо несжатых форматов CD давно уже используются музыкальные файлы, в большинстве случаев это не аудиофильские форматы (mp3,AAC), которые так же имеют деструктивную природу и ограничение еще и по частотному диапазону. Тогда возникает разумный вопрос: зачем портить CD по DR и  писать диски без компрессии? Ведь здравого смысла коверкать запись на CD для более высокой громкости не просматривается, однако, маркетинговая машина войны за громкость запущена на полную мощность и обратного хода не предвидится. Статистика, к сожалению, свидетельствует, что производитель с каждым годом усиливает компрессию звукового материала, что конечно же негативно сказывается на качестве звучание на аппаратуре класса Hi-Fi.

Действительно, не компрессированный диск на дешевом переносном плеере или смартфоне в силу внешних шумов, которые замаскируют самые тихие звуки, будет звучать «неэффектно», а компрессированное звучание покажется лучше в силу того, что громкость тихих звуков гиперзавышена и находится над внешним шумом. Это схоже с тем, что звукорежиссер озадачился целью, записать диск, который будет звучать отлично на фоне работающего отбойного молотка. Возможно в таких ситуациях это покажется прекрасным, но можно ли серьезно говорить о качестве звучания, если используется глубокая компрессия?

В любом случае, низкокачественное и низкосортное воспроизведение и для высококачественного воспроизведения на хороших Hi-Fi/Hi-End аппаратах компрессированные записи не годятся.

Большинству аудиофилов не важна громкость диска, ее можно выставить любой на усилителе, важна чистота и детальность звучания, и многие другие параметры.

С появлением современных высококлассных усилителей музыка открыла для себя новое измерение, которое добавляет к ней еще одну восхитительную грань — возможность большего вовлечения благодаря аудиофильской прорисовки музыкальных событий. В этом измерении воспринимается не только мелодия, но и каждый звук, который в хорошем тракте поет и восхищает, цепляет за струны души.

Именно поэтому большинство современных дисков после покупки хочется сразу  выкинуть, например, альбом Madonna «Handy Candy». Звук на них ужасно грязный, кашеобразный, давящий на слух. Причина легко определяется при проверке на DR динамического диапазона. На диске он равен удручающему значению 5. Хорошо звучащими дисками можно считать записи имеющие диапазон минимально от 10 и выше. Диапазон CD от DR 8 и ниже вызывает при прослушивании не лучшие ощущения.

Многие предложат в виде панацеи прослушивание виниловых дисков, где компрессия маловероятна, но  компрессия маловероятна и на всех оригинальных CD старых выпусков (встречается DR до 18), а современный винил может быть так же компрессирован. Это первый аргумент, а второй происходит из того, что при замере значение DR динамического диапазона современных виниловых дисков он оказывается не очень высоким. Для разных виниловых дисков значение DR равно 12-14. Но остались серьезные подозрения, что нижняя граница определялась не самым тихим звуком, а рокотом и шумом самой виниловой пластинки из за механического характера считывания данных и тогда, вероятно, реальный DR имеет еще худшее значение. При этом не редко можно встретить записи на CD с DR динамического диапазона равным 15, и, кроме того, на диске существенно лучше выполнено разделение каналов и многие другие показатели.



Из вышесказанного можно сделать вывод, что на качество звучания диска CD оказывает большое значения интенсивность компрессии звукового диапазона DR. Как ответ этой ситуации на рынке стали появляться специальные «аудиофильские» диски без компрессии, например компиляция Audiophile World.

Для любознательных: сайт www.dr.loudness-war.info  содержит каталог замеренных значений DR большого количества аудио CD дисков.

принцип и настройка. Сужение динамического диапазона

Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера. Сегодня такие устройства могут иметь разве лишь исторический интерес, так как современные компьютеры можно легко оснастить устройствами ввода и вывода звука, такими как звуковые адаптеры, микрофоны, головные телефоны и звуковые колонки.

Мы не будем углубляться в детали внутреннего устройства этих приспособлений, но расскажем о том, как они работают, и приведем некоторые рекомендации по выбору звуковых компьютерных приспособлений для работы с системами распознавания и синтеза речи.

Как мы уже говорили в предыдущей главе, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.

По принципу действия наиболее распространенные микрофоны делятся на угольные, электродинамические, конденсаторные и электретные. Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).

Можно также разделить микрофоны по назначению. Есть студийные микрофоны, которые можно держать в руке или закрепить на подставке, есть радиомикрофоны, которые можно закрепить на одежде, и так далее.

Имеются также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 2-1.

Рис. 2-1. Головные телефоны с микрофоном

Как же выбрать из всего многообразия микрофонов тот, что лучше всего подходит для систем распознавания речи?

В принципе, Вы можете экспериментировать с любым имеющимся у Вас микрофоном, если только его можно подключить к звуковому адаптеру компьютера. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.

Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет меняться не слишком сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.

В чем тут проблема?

Человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.

Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к головным телефонам, как это показано на рис. 2-1. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.

Обращаем также Ваше внимание, что все эксперименты с системами распознавания речи лучше всего проводить, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Разумеется, если Вам нужно выбрать систему распознавания речи, способную работать в условиях сильных помех, то испытания нужно проводить по-другому. Однако, насколько это известно авторам книги, пока помехозащищенность систем распознавания речи еще очень и очень низка.

Микрофон выполняет для нас преобразование звуковых колебаний в колебания электрического тока. Эти колебания можно увидеть на экране осциллографа, однако не спешите в магазин, чтобы приобрести это дорогостоящее устройство. Все осциллографические исследования мы сможем провести с помощью обычного компьютера, оборудованного звуковым адаптером, например, адаптером Sound Blaster . Позже мы расскажем Вам, как это сделать.

На рис. 2-2 мы показали осциллограмму звукового сигнала, получившуюся при произнесении долгого звука а . Эта осциллограмма была получена с помощью программы GoldWave , о которой мы еще расскажем в этой главе книги, а также с помощью звукового адаптера Sound Blaster и микрофона, аналогичного показанному на рис. 2-1.

Рис. 2-2. Осциллограмма звукового сигнала

Программа GoldWave позволяет растягивать осциллограмму по оси времени, что позволяет разглядеть мельчайшие детали. На рис. 2-3 мы показали растянутый фрагмент упомянутой выше осциллограммы звука а .

Рис. 2-3. Фрагмент осциллограммы звукового сигнала

Обратите внимание, что величина входного сигнала, поступающего от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.

Если бы во входном сигнале присутствовала только одна частота (то есть если бы звук был «чистым»), форма сигнала, полученного от микрофона, была бы синусоидальной. Однако, как мы уже говорили, спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.

Сигнал, величина которого изменяется со временем непрерывно, мы будем называть аналоговым сигналом . Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.

Чтобы компьютер мог обработать звуковой сигнал, его необходимо перевести из аналоговой формы в цифровую, то есть представить в виде набора числовых значений. Этот процесс называется оцифровкой аналогового сигнала.

Оцифровка звукового (и любого аналогового) сигнала выполняется с помощью специального устройства, называемого аналогово-цифровой преобразователь АЦП (Analog to Digital Converter , ADC ). Это устройство находится на плате звукового адаптера и представляет собой обычную с вида микросхему.

Как работает аналогово-цифровой преобразователь?

Он периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс иллюстрируется на рис. 2-4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.

Рис. 2-4. Измерения зависимости амплитуды сигнала от времени

На рис. 2-5 мы показали подключение аналого-цифрового преобразователя к микрофону. При этом на вход x 1 подается аналоговый сигнал, а с выходов u 1 -u n снимается цифровой сигнал.

Рис. 2-5. Аналого-цифровой преобразователь

Аналого-цифровые преобразователи характеризуются двумя важными параметрами — частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.

Насколько часто нужно измерять значение амплитуды входного аналогового сигнала для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала?

Казалось бы, ответ прост — входной сигнал нужно измерять как можно чаще. Действительно, чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше будут отслеживаться малейшие изменения амплитуды входного аналогового сигнала.

Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.

К счастью, правильный выбор частоты преобразования (частоты дискретизации) сделать достаточно просто. Для этого достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.

Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука. Для систем распознавания речи такое качество не актуально, поэтому мы не будем заострять на таком выборе Ваше внимание.

А какая частота преобразования нужна для оцифровки звука человеческой речи?

Так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой — обеспечивает оцифровку речи с достаточным качеством.

Еще в школе нас учили, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают из-за ограниченной разрешающей способности измерительных приборов, а также из-за того, что сам процесс измерений может внести некоторые изменения в измеряемую величину.

Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216 =65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса могут быть 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.

Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными же звуковыми адаптерами. Поэтому для проведения экспериментов с распознаванием речи Вам не потребуется приобретать профессиональный звуковой адаптер. Такой адаптер, как Sound Blaster , вполне пригоден для оцифровки речи с целью ее дальнейшего распознавания.

Вместе с полезным сигналом в микрофон обычно попадают различные шумы — шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали — сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.

Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.

Расскажем обо всем этом по порядку.

Частотным фильтром называется устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.

Вы можете представить себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу — аналого-цифровой преобразователь.

Частотные фильтры бывают разные:

· фильтры нижних частот;

· фильтры верхних частот;

· пропускающие полосовые фильтры;

· заграждающие полосовые фильтры.

Фильтры нижних частот (low -pass filter ) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.

Так как звуковые сигналы лежат в диапазоне 16-20 000 Гц, то все частоты меньше 16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому можно вырезать частоты ниже 300 Гц. При этом из входного сигнала будут вырезаны все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.

Аналогично, фильтры верхних частот (high -pass filter ) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.

Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их можно вырезать из спектра без заметного ухудшения качества звука. Что же касается распознавания речи, то здесь можно вырезать все частоты выше 4000 Гц, что приведет к существенному снижению уровня высокочастотных помех.

Пропускающий полосовой фильтр (band -pass filter ) можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания , а также выше верхней частоты пропускания .

Таким образом, для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.

Что же касается заграждающих полосовых фильтров (band -stop filter ), то они позволяют вырезать из спектра входного сигнала все частоты, лежащие в заданном диапазоне. Такой фильтр удобен, например, для подавления помех, занимающих некоторую сплошную часть спектра сигнала.

На рис. 2-6 мы показали подключение пропускающего полосового фильтра.

Рис. 2-6. Фильтрация звукового сигнала перед оцифровкой

Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).

А как добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи?

Конечно, если у Вас есть склонности к конструированию радиоэлектронной аппаратуры, Вы можете сделать свой фильтр из микросхемы операционного усилителя, резисторов и конденсаторов . Примерно так и поступали первые создатели систем распознавания речи.

Однако промышленные системы распознавания речи должны быть работоспособны на стандартном компьютерном оборудовании, поэтому путь изготовления специального полосового фильтра тут не подходит.

Вместо этого в современных системах обработки речи используются так называемые цифровые частотные фильтры , реализованные программно. Это стало возможным, после того как центральный процессор компьютера стал достаточно мощным.

Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.

Рассказывая об аналогово-цифровом преобразователе, мы отметили такую его важную характеристику, как количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216 =65536 различных значений.

Если уровней квантования мало, то возникает так называемый шум квантования . Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.

Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.

Это иллюстрируется графиком зависимости амплитуда выходного сигнала от амплитуды входного сигнала, показанным на рис. 2-7.

Рис. 2-7. Нелинейное усиление перед оцифровкой

На этапе обратного преобразования оцифрованного звука в аналоговый (этот этап мы рассмотрим ниже в этой главе) перед выводом на звуковые колонки аналоговый сигнал снова пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.

Чем все это может помочь создателям систем распознавания речи?

Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.

Сегодняшние компьютерные системы распознавания речи, к сожалению, пока не могут похвастаться этим. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис. 2-7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.

Разработчики систем распознавания речи, опять же, вынуждены ориентироваться в первую очередь на серийно выпускаемые звуковые адаптеры. В них не предусмотрено описанные выше нелинейное преобразование сигнала.

Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию. Например, можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов.

Компрессия это одна из наиболее опутанных мифами тем саундпродакшна. Говорят, Бетховен даже пугал ей соседских детей:(

Ладно, на самом деле, применять компрессию не сложнее чем пользоваться дисторшном, главное — понимать принцип её работы и иметь хороший контроль . В чём мы сейчас вместе и убедимся.

Что такое компрессия звука

Первое, что стоит уяснить перед препарированием — компрессия это работа с динамическим диапазоном звука . А , в свою очередь, — ни что иное как разница между самым громким и самым тихим уровнем сигнала:

Так вот, компрессия это сжатие динамического диапазона . Да, просто сжатие динамического диапазона, ну или другими словами понижение уровня громких частей сигнала и увеличение громкости тихих . Не более того.

Ты можешь вполне резонно удивиться с чем тогда связан такой хайп? Почему все говорят о рецептах правильной настройки компрессоров, но никто ими не делится? Почему, не смотря на огромное количество классных плагинов , во многих студиях до сих пор используются дорогущие раритетные модели компрессоров? Почему одни продюсеры применяют компрессоры на экстремальных настройках, а другие не используют совсем? И кто из них в конце концов прав?

Задачи, которые решает компрессия

Ответы на подобные вопросы лежат в плоскости понимания роли компрессии в работе со звуком. А она позволяет:

  1. Подчёркивать атаку звука, делать его более выраженным;
  2. «Усаживать» в микс отдельные партии инструментов , добавляя им мощности и «веса»;
  3. Делать группы инструментов или весь микс более цельным , таким единым монолитом;
  4. Решать конфликты между инструментами с помощью sidechain ;
  5. Исправлять огрехи вокалиста или музыкантов , выравнивая их динамику;
  6. При определённой настройке выступать в качестве художественного эффекта .

Как видишь, это не менее значимый творческий процесс чем, скажем, придумывание мелодий или наруливание интересных тембров. При этом любая из вышеперечисленных задач может быть решена с помощью 4-х основных параметров.

Основные параметры компрессора

Не смотря на огромное количество программных и аппаратных моделей компрессоров, вся «магия» компрессии происходит при правильной настройке основных параметров: Threshold, Ratio, Attack и Release. Рассмотрим их подробнее:

Threshold или порог срабатывания, dB

Этот параметр позволяет установить значение, с которого компрессор будет работать (то есть сжимать аудиосигнал). Так, если мы установим в threshold -12dB, компрессор будет срабатывать только в тех местах динамического диапазона, которые превышают это значение. Если весь наш звук тише -12db, компрессор просто пропустит его через себя, никак на него не влияя.

Ratio или коэффициент сжатия

Параметр ratio определяет насколько сильно будет сжиматься сигнал, превышающий threshold. Немного математики для полноты картины: допустим, мы настроили компрессор с threshold -12dB, ratio 2:1 и подали на него барабанный луп , в котором громкость бочки равна -4dB. Каким в этом случае будет результат работы компрессора?

В нашем случае уровень бочки превышает threshold на 8dB. Эта разница в соответствии с ratio будет сжата до 4dB (8dB / 2). В сумме с необработанной частью сигнала это приведёт к тому, что после обработки компрессором громкость бочки составит -8db (threshold -12dB + сжатый сигнал 4dB).

Attack, ms

Это время, спустя которое компрессор будет реагировать на превышение порога срабатывания. То есть, если время атаки выше 0ms — компрессор начинает сжатие превышающего threshold сигнала не мгновенно, а спустя указанное время.

Release или восстановление, ms

Противоположность атаке — значение данного параметра позволяет указать спустя какое время с момента возврата уровня сигнала ниже threshold компрессор прекратит сжатие .

Прежде чем мы двинемся дальше, настоятельно рекомендую взять хорошо знакомый семпл, повесить на его канал любой компрессор и 5-10 минут поэкспериментировать с вышеперечисленными параметрами для надёжного закрепления материала

Все остальные параметры опциональны . Они могут отличаться в разных моделях компрессоров, отчасти поэтому продюсеры и применяют различные модели для каких-либо определённых целей (например, один компрессор для вокала, другой на группу ударных, третий — на мастер-канале). Я не стану подробно останавливаться на этих параметрах, а лишь дам общую информацию для понимания что это вообще такое:

  • Колено или излом (Hard/Soft Knee) . Этот параметр определяет как быстро будет применяться коэффициент сжатия (ratio): жестко по кривой или плавно. Отмечу, что в режиме Soft Knee компрессор срабатывает не прямолинейно, а начинает плавно (насколько это может быть уместно когда мы говорим о миллисекундах) поджимать звук уже перед значением threshold . Для обработки групп каналов и общего микса чаще используется именно soft knee (так как работает незаметно), а для подчёркивания атаки и других особенностей отдельных инструментов — hard knee;
  • Режим реагирования: Peak/RMS . Режим Peak оправдан когда нужно жёстко лимитировать всплески амплитуды, а также на сигналах со сложной формой, динамику и читаемость которых нужно полностью передать. Режим RMS очень бережно влияет на звук, позволяя уплотнить его, сохранив атаку;
  • Предусмотрительность (Lookahead) . Это время, за которое компрессор будет знать что ему предстоит. Своего рода предварительный анализ входящих сигналов;
  • Makeup или Gain . Параметр, позволяющий компенсировать понижение громкости в результате работы компрессии.

Первый и самый главный совет , снимающий все дальнейшие вопросы по компрессии: если ты а) понял принцип действия компрессии, б) твёрдо знаешь как воздействует на звук тот или иной параметр и в) успел на практике попробовать несколько разных моделей — никакие советы тебе уже не нужны .

Я абсолютно серьёзен. Если ты внимательно прочёл эту запись, поэкспериментировал со штатным компрессором твоей DAW и одним-двумя плагинами , но так и не понял в каких случаях нужно устанавливать большие значения атаки, какой коэффициент ratio применять и в каком из режимов обрабатывать исходный сигнал — то так и будешь дальше искать в интернете готовые рецепты, применяя их бездумно куда попало.

Рецепты точной настройки компрессора это примерно как рецепты точной настройки ревербератора или хоруса — лишено какого-либо смысла и не имеет ничего общего с творчеством. Поэтому настойчиво повторяю единственно верный рецепт: вооружись этой статьёй, хорошими мониторными наушниками , плагином для визуального контроля формы волны и проведи вечер в компании с парочкой компрессоров.

Действуй!

Уровень звука одинаковый на протяжении всей композиции, имеется несколько пауз.

Сужение динамического диапазона

Сужение динамического диапазона, или проще говоря компрессия , необходима для разных целей, наиболее часто встречающиеся из них:

1) Достижение единого уровня громкости на протяжении всей композиции (или партии инструмента).

2) Достижение единого уровня громкости композиций на протяжении альбома/радио передачи.

2) Повышение разборчивости, в основном при компрессии определённой партии (вокал, бас бочка).

Как же происходит сужение динамического диапазона?

Компрессор анализирует уровень звука на входе сравнивая его с задаваемым пользователем значением Threshold (Порог).

Если уровень сигнала ниже значения Threshold – то компрессор продолжает анализировать звук не изменяя его. Если уровень звука превышает значение Threshold – то компрессор начинает своё действие. Так как роль компрессора заключается в сужении динамического диапазона, то логично предположить то что он ограничивает наиболее большие и наиболее маленькие значения амплитуды (уровня сигнала). На первом этапе происходит ограничение наиболее больших значений, которые понижаются с определённой силой, которая называется Ratio (Отношение). Посмотрим на пример:

Зелёные кривые отображают уровень звука, чем больше амплитуда их колебаний от оси X – тем больше уровень сигнала.

Жёлтая линия – это порог (Threshold) срабатывания компрессора. Делая значение порога Threshold выше – пользователь отдаляет его от оси X. Делая значение порога Threshold ниже – пользователь приближает его к оси Y. Понятно то что чем ниже значение порога – тем чаще будет срабатывать компрессор и наоборот, чем выше – тем реже. Если значение Ratio очень велико – то после достижения уровня сигнала Threshold весь последующий сигнал будет подавлен компрессором до тишины. Если значение Ratio очень мало – то ничего не произойдёт. О выборе значений Threshold и Ratio речь пойдёт позже. Сейчас же нам следует задать себе следующий вопрос: Какой же смысл подавлять весь последующий звук? Действительно, в этом смысла нет, нам нужно избавиться только от значений амплитуды (пиков), которые превышают значение Threshold (на графике отмечены красным). Именно для решения этой проблемы и существует параметр Release (Затухание), которым задаётся время действия компрессии.

На примере видно то что первый и второй превышения порога Threshold длятся меньше чем третье превышение порога Threshold. Так, если параметр Release настроить на первые два пика – то при обработке третьего может остаться необработанная часть (так как превышение порога Threshold длится дольше). Если же параметр Release настроить на третий пик – то при обработке первого и второго пика за ними образуется нежелательное понижение уровня сигнала.

Тоже самое касается параметра Ratio. Если параметр Ratio настроить на первые два пика – то третий не будет достаточно подавлен. Если же параметр Ratio настроить на обработку третьего пика – то обработка первых двух пиков будет слишком завышенной.

Эти проблемы можно решить двумя способами:

1) Заданием параметра атаки (Attack) – частичное решение.

2) Динамической компрессией – полное решение.

Параметр а таки (Attack) предназначен для задания времени, по истечению которого компрессор начнёт свою работу после превышения порога Threshold. Если параметр близок к нулю (равен нулю в случае параллельной компрессии, смотри соотв. статью) – то компрессор начнёт подавлять сигнал сразу же, и будет работать кол-во времени, задаваемое параметром Release. Если же скорость атаки велика – то компрессор начнёт своё действие по истечении определённого промежутка времени (это нужно для придания чёткости). В нашем случае можно настроить параметры порога (Threshold), затухания (Release) и уровня компрессии (Ratio) на обработку первых двух пиков, а значение атаки (Attack) поставить близким к нулю. Тогда компрессор подавит первые два пика, и при обработке третьего будет его подавлять до окончания превышения порога (Threshold). Однако это не гарантирует качественной обработки звука и близко к лимиттингу (грубый срез всех значений амплитуды,в этом случае компрессор называется лимиттером).

Посмотрим на результат обработки звука компрессором:

Пики исчезли, замечу то что настройки обработки были достаточно щадящими и мы подавили только самые выступающие значения амплитуды. На практике же динамический диапазон сужается гораздо сильнее и эта тенденция только прогрессирует. В умах многих композиторов – они делают музыку громче, однако на практике они полностью лишают её динамики для тех слушателей, которые возможно будут слушать её дома а не по радио.

Нам осталось рассмотреть последний параметр компрессии, это Gain (Усиление). Усиление предназначено для увеличения амплитуды всей композици и, по сути, эквивалентно другому инструменту звуковых редакторов – нормалайзу. Посмотрим на конечный результат:

В нашем случае компрессия была оправданной и улучшила кчество звука, так как выделяющийся пик скорее является случайностью, чем умышленным результатом. Кроме того, видно то что музыка ритмичная, следовательно ей свойственен узкий динамический диапазон. В случаях, когда высокие значения амплитуд были сделаны специально, компрессия может стать ошибкой.

Динамическая компрессия

Отличие динамической компрессии от не динамической заключается в том, что при первой уровень подавления сигнала (Ratio) зависит от уровня входящего сигнала. Динамические компрессоры есть во всех современных программах, управлением параметрами Ratio и Threshold осуществляется с помощью окна (каждому параметру соответствует своя ось):

Единого стандарта отображения графика нету, где-то по оси Y отображается уровень входящего сигнала, где-то наоборот, уровень сигнала после компрессии. Где-то точка (0,0) находится в верхнем правом углу, где-то в нижнем левом. В любом случае, при перемещении курсора мыши по этому полю изменяются значения цифр, которые соответствуют параметрам Ratio и Threshold. Т.е. Вы задаёте уровень компресии для каждого значения Threshold, благодаря чему можно очень гибко настроить компрессию.

Сайд чейн (Side Chain)

Сайд чейн компрессор анализирует сигнал одного канала, и когда уровень звука превосходит порог (threshold) – применяет компрессию к другому каналу. Сайд чейн имеет свои преимущества работы с инструментами, которые расположены в одной частотной области (активно используется связка бас – бас бочка), однако иногда используются и инструменты, расположенные в разных частотных областях, что приводит к интересному сайд-чейн эффекту.

Часть вторая – Этапы компрессии

Существует три этапа компрессии:

1) Первый этап – компрессия отдельных звуков (singleshoots).

Тембр любого инструмента имеет следующие характеристики: Атака (Attack), Держание (Hold), Спад (Decay), Период удержания (Delay) Уровень(Sustain), Затухание (Release).

Этап компрессии отдельных звуков подразделяется на две части:

1.1) Компрессия отдельных звуков ритмических инструментов

Часто составляющие бита требуют отдельной компрессии для придания им чёткости. Многие обрабатывают бас бочку отдельно от других ритмических инструментов, как на этапе компрессии отдельных звуков, так и на этапе компрессии отдельных партий. Связано это с тем, что она находится в низкочастотной области, где кроме неё обычно присутствует только бас. Под чёткостью бас бочки понимается наличие характерного щелчка (у бас бочки очень короткое время атаки и держания). Если щелчка нет – то нужно обработать её компрессором, задавая порог равным нулю а время атаки от 10 до 50 мс. Спад (Realese) компрессора должен закончиться до нового удара бас-бочки. Последнюю проблему можно решить с помощью формулы: 60 000 / BPM , где BPM – темп композиции. Так, например) 60 000/137=437,96 (время в миллисекундах до новой сильной доли 4-х размерной композиции).

Всё выше сказанное относится и к другим ритмическим инструментам с коротким временем атаки – они должны обладать акцентированным щелчком, который не должен быть подавлен компрессором на каком-то из этапов уровней компрессии.

1.2) Компрессия отдельных звуков гармонических инструментов

В отличие от ритмических инструментов, партии гармонических инструментов довольно редко составляются из отдельных звуков. Однако из этого не следует то что их не следует обрабатывать на уровне компрессии звуков. В случае если Вы используете семпл с записанной партией – то это второй уровень компрессии. К этому уровню компрессии относятся только синтезируемые гармонические инструменты. Это могут быть семплеры, синтезаторы использующие различные методы синтеза звука (физическое моделирование, FM, аддитивный, субтрактивный и др.). Как Вы наверное уже догадались – речь идёт о программировании настроек синтезатора. Да! Это тоже компрессия! Практически у всех синтезаторов есть программируемый параметр envelope (ADSR), что в переводе означает огибающая. С помощью огибающей задаётся время Атаки (Attack), Спада (Decay), Уровеня держания (Sustain), Затухания (Release). И если Вы мне скажите то что это не компрессия каждого отдельного звука – Вы мой враг на всю жизнь!

2) Второй этап – Компрессия отдельных партий.

Под компрессией отдельных партий я понимаю сужение динамического диапазона ряда объединённых отдельных звуков. В этот этап входят и записи партий, в том числе вокал, который требует обработки компрессия для придания ему чёткости и разборчивости. При обработке компрессией партий нужно учитывать то что при сложении отдельных звуков могут появиться нежелательный пики, от которых и нужно избавиться на этом этапе, так как если это не сделать сейчас, то картина может усугубиться на этапе сведения всей композиции. На этапе компрессии отдельных партий нужно учитывать компрессию этапа обработки отдельных звуков. Если Вы добились чёткости бас бочки – то неправильная повторная обработка на втором этапе может всё испортить. Обработка всех партий компрессором не обязательна, также как и не обязательна обработка всех отдельных звуков. Я Вам советую поставить на всякий случай анализатор амплитуды чтобы определять наличие нежелательных побочных эффектов объединения отдельных звуков. Помимо компрессии на этом этапе необходимо следить за тем, чтобы партии были по возможности в разных частотных диапазонах, чтобы было выполнено квантование. Также полезно помнить то что у звука есть такая характеристика как маскировка (психоакустика):

1) Более тихий звук маскируется более громким, идущим перед ним.

2) Более тихий звук на низкой частоте маскируется более громким звуком на высокой частоте.

Так, например, если у Вас есть партия синтезатора, то часто ноты начинают играть до того как заканчивают своё звучание предыдущие ноты. Иногда это необходимо (создание гармонии, стиль игры, многоголосие), но порой вовсе нет – Вы можете обрезать их конец (Delay – Release) в случае если он слышен в solo режиме, но не слышен в режиме воспроизведения всех партий. Тоже самое относится к эффектам, например реверберации – она не должна длится до нового начала звучания источника звука. Вырезая и удаляя ненужный сигнал – вы делаете звучание чище, и это тоже может быть рассмотрено как компрессия – потому что Вы удаляете ненужные волны.

3) Третий этап – Компрессия композиции.

При компрессии всей композиции нужно учитывать то что все партии являются объединением множества отдельных звуков. Следовательно, при их объединении и последующей компрессии нужно следить за тем чтобы конечная компрессия не испортила то чего мы достигли на первых двух этапах. Также нужно разделять композиции в которых важен широкий или узкий диапазон. при компрессии композиций с широким динамическим диапазоном – достаточно поставить компрессор, который будет давить кратковременные пики, которые образовались в результате сложения партий между собой. При компрессии композиции, в которой важен узкий динамический диапазон, – всё гораздо сложнее. Тут компрессоры последнее время называются максимайзерами. Максимайзер – плагин, который совмещает в себе компрессор, лимиттер, граффический эквалайзер, энхайзер и прочие инструменты преобразования звука. При этом он должен обязательно обладать инструментами анализа звука. Максимайзинг, конечная обработка компрессором, во многом нужна для борьбы с допущенными ошибками на предыдущих этапах. Ошибки – не столько компрессии (впрочем, если Вы делаете на последнем этапе то что Вы могли сделать на первом этапе – это уже ошибка), сколько в изначальном выборе хороших семплов и инструментов, которые не мешали бы друг другу (речь идёт о частотных диапазонах). Именно для этого производится коррекция АЧХ. Часто бывает так, что при сильной компрессии на мастере нужно изменять параметры компрессии и сведения на более ранних этапах, так как при сильном сужении динамического диапазона вылазят тихие звуки, которые ранее маскировались, изменяется звучание отдельных компонентов композиции.

В этих частях я нарочно не говорил о конкретных параметрах компрессии. Я посчитал необходимым написать о том что при компрессии необходимо уделять внимание всем звукам и всем партиям на всех этапах создания композиции. Только так в итоге Вы получите гармоничный результат не только с точки зрения теории музыки, но и с точки зрения звукорежиссуры.

Далее в таблице даны практические советы по обработке отдельных партий. Однако в компрессии цифры и пресеты могут только подсказать нужную область, в округе которой нужно искать. Идеальные настройки компрессии зависят от каждого отдельного случая. Параметры усиления (Gain) и порога (Threshold) подразумевают нормальный уровень звука (логическое использование всего диапазона).

Часть третяя – Параметры компрессии

Краткая справка:

Порог срабатывания (threshold) – определяет уровень звука входящего сигнала, по достижению которого компрессор начинает работу.

Атака (Attack) – определяет время, по истечению которого компрессор начнёт работать.

Уровень (ratio) – определяет стпень уменьшения значений амплитуды (по отношению к оригинальному значению амплитуды).

Спад (release) – определяет время, по истечению которого компрессор перестанет работать.

Усиление (Gain) – определяет уровень повышения входящего сигнала, после обработки компрессором.

Таблица компрессии:

Инструмент Threshold Attack Ratio Release Gain Описание
Вокал 0 ДБ 1-2 мс

2-5 mS

10 мсек

0.1 мс

0.1 мс

меньше 4:1

2,5: 1

4:1 – 12:1

2:1 -8:1

150 мс

50-100 mS

150 мсек

150 мс

0.5s

Компрессия при записи должна быть минимальна, требует обязательной обработки на этапе сведения для придания чёткости и разборчивости.
Духовые инструменты 1 – 5ms 6:1 – 15:1 0.3s
Бочка от 10 до 50 мс

10-100 mS

4:1 и выше

10:1

50-100 мс

1 mS

Чем ниже Thrshold и чем больше Ratio и длиннее Attack , тем сильнее выражен щелчок вначале бочки.
Синтезаторы Зависит от типа волны (огибающих ADSR).
Рабочий барабан: 10-40 mS

1- 5ms

5:1

5:1 – 10:1

50 mS

0.2s

Хай-Хэт 20 mS 10:1 1 mS
Надголовные микрофоны 2-5 mS 5:1 1-50 mS
Ударные 5ms 5:1 – 8:1 10ms
Бас-гитара 100-200 mS

4ms to 10ms

5:1 1 mS

10ms

Струнные 0-40 mS 3:1 500 mS
Синт. бас 4ms – 10ms 4:1 10ms Зависит от огибающих.
Перкуссия 0-20 mS 10:1 50 mS
Акустическая гитара, Пианино 10-30 mS

5 – 10ms

4:1

5:1 -10:1

50-100 mS

0.5s

Электро-нитара 2 – 5ms 8:1 0.5s
Финальная компрессия 0.1 мс

0.1 мс

2:1

от 2:1 до 3:1

50 мс

0.1 мс

0 дБ на выходе Время атаки зависит от цели – нужно ли удалить пики или сделать трек более гладким.
Лимиттер после финальной компрессии 0 mS 10:1 10-50 mS 0 дБ на выходе Если нужен узкий динамический диапазон и грубый «срез» волн.

Информация была взята из разных источников, на которые ссылаются попуряные ресурсы в интернете. Различие параметров компрессии объесняется различием предпочтений звучания и работой с различным материалом.

Эта группа методов основана на том, что передаваемые сигналы подвергаются нелинейным преобразованиям амплитуды, причем в передающей и приёмной частях нелинейности взаимообратны. Например, если в передатчике используется нелинейная функция Öu , в приемнике – u 2 . Последовательное применение взаимообратных функций приведет к тому, что в целом преобразование остается линейным.

Идея нелинейных методов сжатия данных сводится к тому, что передатчик может при той же амплитуде выходных сигналов передать больший диапазон изменения передаваемого параметра (то есть, больший динамический диапазон). Динамический диапазон — это выраженное в относительных единицах или децибеллах отношение наибольшей допустимой амплитуды сигнала к наименьшей:

; (2.17)
. (2.18)

Естественное желание увеличить динамический диапазон с помощью уменьшения U min ограничивается чувствительностью аппаратуры и возрастанием влияния помех и собственных шумов.

Наиболее часто сжатие динамического диапазона осуществляется с помощью пары взаимообратных функций логарифмирования и потенцирования. Первая операция изменения амплитуды называется компрессией (сжатием), вторая — экспандированием (растяжением). Выбор именно этих функций связан с их наибольшей возможностью компрессии.

В то же время эти методы имеют и недостатки. Первый из них заключается в том, что логарифм малого числа отрицателен и в пределе:

то есть, чувствительность очень нелинейна.

Для уменьшения этих недостатков обе функции модифицируют смещением и аппроксимацией. Например, для телефонных каналов аппроксимированная функция имеет вид (тип А,):

причем А=87,6. Выигрыш от сжатия при этом составляет 24дБ.

Сжатие данных путём нелинейных процедур реализуется аналоговыми средствами с большими погрешностями. Применение цифровых средств может существенно повысить точность или быстродействие преобразования. При этом прямое применение средств вычислительной техники (то есть, непосредственное вычисление логарифмов и экспонент) даст не лучший результат ввиду низкого быстродействия и накапливающейся погрешности вычисления.

Сжатие данных путем компрессии из-за ограничений по точности используется в неответственных случаях, например, для передачи речи по телефонным и радиоканалам.

Эффективное кодирование

Эффективные коды были предложены К.Шенноном, Фано и Хафманом . Сущность кодов заключается в том, что они неравномерные, то есть с неодинаковым числом разрядов, причем длина кода обратно пропорциональна вероятности его появления. Еще одна замечательная особенность эффективных кодов — они не требуют разделителей, то есть специальных символов, разделяющих соседние кодовые комбинации. Это достигается при соблюдении простого правила: более короткие коды не являются началом более длинных. В этом случае сплошной поток двоичных разрядов однозначно декодируется, поскольку декодер обнаруживает вначале более короткие кодовые комбинации. Эффективные коды долгое время были чисто академическими, но в последнее время успешно используются при формировании баз данных, а также при сжатии информации в современных модемах и в программных архиваторах .

Ввиду неравномерности вводят среднюю длину кода. Средняя длина — математическое ожидание длины кода:

причем, l ср стремится к H(x) сверху (то есть l ср > H(x)).

Выполнение условия (2.23) усиливается при увеличении N.

Существует две разновидности эффективных кодов: Шеннона-Фано и Хафмана. Рассмотрим их получение на примере. Предположим, вероятности символов в последовательности имеют значения, приведенные в таблице 2.1.

Таблица 2.1.

Вероятности символов

N
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Символы ранжируются, то есть представляются в ряд по убыванию вероятностей. После этого по методу Шеннона-Фано периодически повторяется следующая процедура: вся группа событий делится на две подгруппы с одинаковыми (или примерно одинаковыми) суммарными вероятностями. Процедура продолжается до тех пор, пока в очередной подгруппе не останется один элемент, после чего этот элемент устраняется, а с оставшимися указанные действия продолжаются. Это происходит до тех пор, пока в последних двух подгруппах не останется по одному элементу. Продолжим рассмотрение нашего примера, которое сведено в таблице 2.2.

Таблица 2.2.

Кодирование по методу Шеннона-Фано

N P i
4 0.3 I
0.2 I II
6 0.15 I I
0.1 II
1 0.1 I I
9 0.05 II II
5 0.05 II I
7 0.03 II II I
8 0.02 II

Как видно из таблицы 2.2, первый символ с вероятностью p 4 = 0.3 участвовал в двух процедурах разбиения на группы и оба раза попадал в группу с номером I . В соответствии с этим он кодируется двухразрядным кодом II. Второй элемент на первом этапе разбиения принадлежал группе I, на втором — группе II. Поэтому его код 10. Коды остальных символов в дополнительных комментариях не нуждаются.

Обычно неравномерные коды изображают в виде кодовых деревьев. Кодовое дерево — это граф, указывающий разрешенные кодовые комбинации . Предварительно задают направления ребер этого графа, как показано на рис.2.11 (выбор направлений произволен).

По графу ориентируются следующим образом: составляют маршрут для выделенного символа; количество разрядов для него равно количеству ребер в маршруте, а значение каждого разряда равно направлению соответствующего ребра. Маршрут составляется из исходной точки (на чертеже она помечена буквой А). Например, маршрут в вершину 5 состоит из пяти ребер, из которых все, кроме последнего, имеют направление 0; получаем код 00001.

Вычислим для этого примера энтропию и среднюю длину слова.

H(x) = -(0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0.02 log 0.02) = 2.23 бит

l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Как видно, средняя длина слова близка к энтропии.

Коды Хафмана строятся по иному алгоритму. Процедура кодирования состоит из двух этапов. На первом этапе последовательно проводят однократные сжатия алфавита. Однократное сжатие — замена двух последних символов (с низшими вероятностями) одним, с суммарной вероятностью. Сжатия проводят до тех пор, пока не останется два символа. При этом заполняют таблицу кодирования, в которой проставляют результирующие вероятности, а также изображают маршруты, по которым новые символы переходят на следующем этапе.

На втором этапе происходит собственно кодирование, которое начинается с последнего этапа: первому из двух символов присваивают код 1, второму — 0. После этого переходят на предыдущий этап. К символам, которые не участвовали в сжатии на этом этапе, приписывают коды с последующего этапа, а к двум последним символам дважды приписывают код символа, полученного после склеивания, и дописывают к коду верхнего символа 1, нижнего — 0. Если символ дальше в склеивании не участвует, его код остается неизменным. Процедура продолжается до конца (то есть до первого этапа).

В таблице 2.3 показано кодирование по алгоритму Хафмана. Как видно из таблицы, кодирование осуществлялось за 7 этапов. Слева указаны вероятности символов, справа — промежуточные коды. Стрелками показаны перемещения вновь образованных символов. На каждом этапе два последних символа отличаются только младшим разрядом, что соответствует методике кодирования. Вычислим среднюю длину слова:

l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7

Это еще ближе к энтропии: код еще более эффективен. На рис. 2.12 приведено дерево кода Хафмана.

Таблица 2.3.

Кодирование по алгоритму Хафмана

N p i код I II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Оба кода удовлетворяют требованию однозначности декодирования: как видно из таблиц, более короткие комбинации не являются началом более длинных кодов.

При увеличении количества символов эффективности кодов возрастают, поэтому в некоторых случаях кодируют более крупные блоки (например, если речь идет о текстах, можно кодировать некоторые наиболее часто встречающиеся слоги, слова и даже фразы).

Эффект от внедрения таких кодов определяется в сравнении их с равномерным кодом:

(2.24)

где n — количество разрядов равномерного кода, который заменяется эффективным.

Модификации кодов Хафмана

Классический алгоритм Хафмана относится к двухпроходным, т.е. требует вначале набора статистики по символам и сообщениям, а потом описанных выше процедур. Это неудобно на практике, поскольку увеличивает время обработки сообщений и накопления словаря. Чаще используются однопроходные методы, в которых процедуры накопления и кодирования совмещаются. Такие методы называются ещё адаптивным сжатием по Хафману [ 46].

Сущность адаптивного сжатия по Хафману сводится к построению первоначального кодового дерева и последовательной его модификации после поступления каждого очередного символа. Как и прежде, деревья здесь бинарные, т.е. из каждой вершины графа — дерева исходит максимум две дуги. Принято называть исходную вершину родителем, а две связанных с ней следующих вершины — детьми. Введём понятие веса вершины — это количество символов (слов), соответствующих данной вершине, полученных при подаче исходной последовательности. Очевидно, что сумма весов детей равна весу родителя.

После введения очередного символа входной последовательности пересматривается кодовое дерево: пересчитываются веса вершин и при необходимости вершины переставляются. Правило перестановки вершин следующее: веса нижних вершин наименьшие, причём вершины, находящиеся слева на графе, имеют наименьшие веса.

Одновременно вершины нумеруются. Нумерация начинается с нижних (висячих, т.е. не имеющих детей) вершин слева направо, потом переносится на верхний уровень и т.д. до нумерации последней, исходной вершины. При этом достигается следующий результат: чем меньше вес вершины, тем меньше её номер.

Перестановка осуществляется в основном для висячих вершин. При перестановке должно учитываться сформулированное выше правило: вершины с большим весом имеют и больший номер.

После прохождения последовательности (она называется также контрольной или тестовой) всем висячим вершинам присваиваются кодовые комбинации. Правило присвоения кодов аналогично вышеизложенному: количество разрядов кода равно количеству вершин, через которые проходит маршрут от исходной до данной висячей вершины, а значение конкретного разряда соответствует направлению от родителя к «ребёнку» (скажем, переход влево от родителя соответствует значению 1, вправо — 0).

Полученные кодовые комбинации заносятся в память устройства сжатия вместе с их аналогами и образуют словарь. Использование алгоритма заключается в следующем. Сжимаемая последовательность символов разбивается на фрагменты в соответствии с имеющимся словарём, после чего каждый из фрагментов заменяется его кодом из словаря. Не обнаруженные в словаре фрагменты образуют новые висячие вершины, приобретают вес и также заносятся в словарь. Таким образом формируется адаптивный алгоритм пополнения словаря.

Для повышения эффективности метода желательно увеличивать размер словаря; в этом случае коэффициент сжатия повышается. Практически размер словаря составляет 4 — 16 Кбайт памяти.


Проиллюстрируем приведённый алгоритм примером. На рис. 2.13 приведена исходная диаграмма (её называют также деревом Хафмана). Каждая вершина дерева показана прямоугольником, в котором вписаны через дробь две цифры: первая означает номер вершины, вторая — её вес. Как можно убедиться, соответствие весов вершин и их номеров выполняется.

Предположим теперь, что символ, соответствующий вершине 1, в тестовой последовательности встретился вторично. Вес вершины изменился, как показано на рис. 2.14, вследствие чего правило нумерации вершин нарушено. На следующем этапе меняем расположение висячих вершин, для чего меняем местами вершины 1 и 4 и перенумеровываем все вершины дерева. Полученный граф приведён на рис. 2.15. Далее процедура продолжается аналогично.

Следует помнить, что каждая висячая вершина в дереве Хафмана соответствует определённому символу или их группе. Родитель отличается от детей тем, что группа символов, ему соответствующая, на один символ короче, чем у его детей, а эти дети различаются последним символом. Например, родителю соответствуют символы «кар»; тогда у детей могут быть последовательности » кара » и » карп «.

Приведённый алгоритм не является академическим и активно используется в программах — архиваторах, в том числе и при сжатии графических данных (о них речь пойдёт ниже).

Алгоритмы Лемпеля – Зива

Это наиболее часто используемые в настоящее время алгоритмы сжатия. Они используются в большинстве программ — архиваторов (например, PKZIP. ARJ, LHA). Сущность алгоритмов состоит в том, что некоторая совокупность символов заменяется при архивировании её номером в специально формируемом словаре. Например, часто встречающаяся в деловой переписке фраза «На ваше письмо исходящий номер…» может занимать в словаре позицию 121; тогда вместо передачи или хранения упомянутой фразы (30 байт) можно хранить номер фразы (1,5 байта в двоично — десятичной форме или 1 байт — в двоичной).

Алгоритмы названы в честь авторов, впервые предложивших их в 1977 году. Из них первый — LZ77. Для архивирования создается так называемое скользящее по сообщению окно, состоящее из двух частей. Первая часть, большего формата, служит для формирования словаря и имеет размер порядка нескольких килобайт. Во вторую, меньшую часть (обычно размером до 100 байт) принимаются текущие символы просматриваемого текста. Алгоритм пытается найти в словаре совокупность символов, совпадающую с принятыми в окно просмотра. Если это удаётся, формируется код, состоящий из трёх частей: смещение в словаре относительно его начальной подстроки, длина этой подстроки, следующий за этой подстрокой символ. Например, выделенная подстрока состоит из символов » прилож » (всего 6 символов), следующий за ней символ — «е». Тогда, если подстрока имеет адрес (место в словаре) 45, то запись в словарь имеет вид «45, 6. е «. После этого содержимое окна сдвигается на позицию, и поиск продолжается. Таким образом формируется словарь.

Достоинством алгоритма является легко формализуемый алгоритм составления словаря. Кроме того, возможно разархивирование и без первоначального словаря (желательно при этом иметь тестовую последовательность) — словарь формируется по ходу разархивирования.

Недостатки алгоритма появляются при увеличении размера словаря — увеличивается время на поиск. Кроме того, если в текущем окне появляется строка символов, отсутствующая в словаре, трёхэлементным кодом записывается каждый символ, т.е. получается не сжатие, а растяжение.

Лучшие характеристики имеет алгоритм LZSS, предложенный в 1978г. В нём есть отличия в поддержании скользящего окна и выходных кодах компрессора . Помимо окна, алгоритм формирует двоичное дерево, аналогичное дереву Хафмана для ускорения поиска совпадений: каждая подстрока, покидающая текущее окно, добавляется в дерево в качестве одного из детей. Такой алгоритм позволяет дополнительно увеличить размер текущего окна (желательно, чтобы его величина равнялась степени двойки: 128, 256 и т.д. байт). По — другому формируются и коды последовательностей: дополнительно вводится 1- битный префикс для различения незакодированных символов от пар «смещение, длина».

Ещё большая степень сжатия получается при использовании алгоритмов типа LZW. Описанные ранее алгоритмы имеют фиксированный размер окна, что приводит к невозможности занесения в словарь фраз длиннее размера окна. В алгоритмах LZW (и их предшественнике LZ78) просмотровое окно имеет неограниченный размер, а словарь накапливает фразы (а не совокупность символов, как ранее). Словарь имеет неограниченную длину, а кодер (декодер) работают в режиме ожидания фразы. Когда фраза, совпадающая со словарём, сформирована, выдаётся код совпадения (т.е. код этой фразы в словаре) и код следующего за ней символа. Если по мере накопления символов образуется новая фраза, она также заносится в словарь, как и более короткая. В результате образуется рекурсивная процедура, обеспечивающая быстрое кодирование и декодирование.

Дополнительную возможность компрессии обеспечивает сжатое кодирование повторяющихся символов. Если в последовательности некоторые символы следуют подряд (например, в тексте это могут быть символы «пробел», в числовой последовательности — подряд идущие нули и т.д.), то имеет смысл заменять их парой «символ; длина» или «признак, длина». В первом случае в коде указывается признак, что будет осуществляться кодирование последовательности (обычно 1 бит), потом код повторяющегося символа и длина последовательности. Во втором случае (предусмотренном для наиболее часто встречающихся повторяющихся символов) в префиксе указывается просто признак повторов.

Задумаемся над вопросом — а зачем нам поднимать громкость? Для того чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно — тихие звуки усиливать, громкие — нет. Самый простой закон изменения громкости — линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k — коэффициент сжатия динамического диапазона:

Рисунок 18. Сжатие динамического диапазона.

При k = 1 никаких изменений не производится (выходная громкость равна входной). При k 1 — громкость будет уменьшаться, а динамический диапазон — увеличиваться.

Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):

Рисунок 19. графики громкости.

Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие — на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие — на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом, громкие звуки стали значительно тише, а тихие — значительно громче. При этом переполнения не происходит!

Теперь обратимся к гистограммам:

Рисунок 20. Пример компрессии.

Как хорошо видно — при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода — те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании, а их характер отличен — они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Чрезмерный уровень компрессии приводит к уплощению звуковой картины — все звуки стремятся к одинаковой громкости и невыразительности.

Сильное усиление тихих звуков может привести к тому, что станут слышны шумы записи. Поэтому в фильтре применен, немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:

Рисунок 21. Увеличение громкости, без увеличения шума.

Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции, и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке — сжатие 1:5). Уровень “DRC” в фильтре задает уровень усиления для тихих звуков (на уровне -50dB), т.о. уровень компрессии 1/5, показанный на рисунке, соответствует уровню +40дБ в настройках фильтра.

Dynamic Range: что это такое и почему это важно при освоении

Динамический диапазон — это термин, который часто используется в производстве музыки.

Это может относиться к производительности аудиосистемы, величине запаса в аудиофайле и т. Д.

Но при мастеринге особенно важен динамический диапазон.

Это ключевой фактор для громкости и того, как сжатие и ограничение влияют на конечный результат.

В этой статье я объясню все, что вам нужно знать о динамическом диапазоне при мастеринге.

Приступим.

Что такое динамический диапазон?

В музыкальном производстве динамический диапазон означает разницу между самыми громкими и самыми тихими звуками. Он измеряется в децибелах, или сокращенно дБ.

В одной звуковой дорожке динамический диапазон означает разницу в дБ между самым громким и самым тихим моментом в аудиофайле.

Носители записи и аудиосистемы также обладают динамическим диапазоном. Этот показатель определяет самые громкие и тихие сигналы, которые они могут правильно отображать.

Вы можете думать о динамическом диапазоне в системе как о пространстве между минимальным уровнем шума и точкой отсечения.

Когда звук опускается ниже минимального уровня шума, вы не сможете отличить сигнал от системного шума среды.

Когда звук превышает точку отсечения, верхняя часть его формы волны резко обрезается, вызывая резкость и искажения.

В одной звуковой дорожке динамический диапазон означает разницу в дБ между самым громким и самым тихим моментом в аудиофайле.

Динамический диапазон песни представляет собой общее расстояние от громкого до тихого.

Динамика в освоении

При мастеринге динамический диапазон дает вам представление о том, какая степень сжатия и ограничения была использована.


Вот практическое правило:

Больший динамический диапазон = меньшая компрессия, меньшая громкость

Меньший динамический диапазон = более сжатый, ближе к максимальной громкости

Это может показаться сухой технической деталью, но динамика оказывает реальное влияние на ваше звучание.

Чтобы понять почему, вам нужно знать, как динамический диапазон влияет на два крайних значения интенсивности мастеринга.

Тихие, динамичные мастера

Когда звук более динамичный, это означает, что пики и впадины волны имеют большее расстояние между ними.

Когда звук более динамичный, это означает, что пики и впадины волны имеют большее расстояние между ними.

В этих случаях громкие атаки и транзиенты намного сильнее прорезают микс.

В высокодинамичном мастере вы услышите эти переходные процессы во многих деталях, в то время как остальная часть микса останется ровной.

Вы также отчетливо услышите упадок, тишину, декрещендо и всю сопутствующую им драму.

Чтобы обеспечить этот дополнительный диапазон, динамическому мастеру требуется место для более горячих переходных процессов, которые распространяются над основной частью микса.

Это означает, что они должны быть тише и менее сжатыми, чтобы оставить место.

Громкие, сжатые мастера

На противоположном конце спектра громкие и агрессивные мастера привлекают ваше внимание чистым уровнем.

Громкость важна для достижения ваших слушателей, и этот подход к мастерингу извлекает из этого выгоду.

Чтобы сделать его громким, процесс мастеринга уменьшает динамический диапазон, так что весь микс может быть приближен к пределу без выхода за пределы пиков.

Инструменты, используемые для его уменьшения, — это сжатие и ограничение.

При правильном выполнении эти процессы делают ваш трек весомым и мощным.

Чтобы сделать его громким, процесс мастеринга уменьшает динамический диапазон, так что весь микс может быть приближен к пределу без выхода за пределы пиков.


Но это хрупкое равновесие. Чем громче вы включаете звук, тем сложнее добиться естественного сжатия звука.

Когда целью является громкость, вероятно, ваш мастер будет повышать максимальный уровень, возможный в аудиофайле.

Это означает, что почти весь избыточный динамический диапазон будет выдавлен до необработанного уровня.

Самая сложная задача в мастеринге — добиться этого, не разрушив микс.

Громкость и Synapse

Громкость — одна из ключевых областей, в которых новый движок Synapse улучшает предыдущие сборки LANDR Mastering.


В чувствительной области около максимума многие треки ведут себя непредсказуемо.

Это вводит возможность искажения и других нежелательных артефактов.

Восприятие громкости зависит от сложных факторов, основанных на том, как мы слышим и воспринимаем звук.

Synapse обучен обнаруживать подобные проблемы и учитывать их до того, как они вызовут проблемы.

Вдобавок ко всему, Synapse теперь настраивает эквалайзер с учетом громкости.

Вот краткий пример того, как звучит мастер LANDR по сравнению с немастерингом.

Попробуйте мастеринг LANDR на своих треках

Восприятие громкости зависит от сложных факторов, основанных на том, как мы слышим и воспринимаем звук.

Частота и громкость связаны, и они влияют друг на друга, когда дело доходит до мастеринга.

Synapse учитывает это, чтобы дать вам оптимизированную громкость, которая работает с вашим треком, а не против него.

Хорошая динамика

Динамический диапазон может показаться важным аспектом при создании музыки, но это важный фактор для ваших конечных результатов.

Мастеринг — это то место, где хорошая динамика имеет наибольшее значение, а динамический диапазон может помочь вам понять, как вы хотите, чтобы ваш мастер звучал.

Если вы ознакомились с этой статьей, у вас будет отличное начало, когда дело доходит до динамического диапазона в мастеринге.

Сжатие динамического диапазона Pt 1

Введение

Чтобы освоить сжатие динамического диапазона, мы должны сначала определить, что такое динамический диапазон в аудио, а во-вторых, как мы его измеряем.

Мы увидим, как более совершенные технологии позволили нам увеличить динамический диапазон в записях, но также зададимся вопросом, есть ли в этом смысл. Мы начнем с основ, позже мы увидим, как это связано с такими темами, как «война громкости» и создание отличных миксов.

Что такое динамический диапазон человеческого слуха?

Мы эволюционировали, чтобы слышать определенный диапазон громкости от очень тихого до очень громкого. Динамический диапазон нашего слуха — это разница между самыми тихими звуками, которые мы можем слышать (порог слышимости), и звуками, которые настолько громки, что вызывают боль (порог боли).

Как измерить динамический диапазон человеческого слуха?

Мы измеряем его в децибелах (дБ). Порог человеческого слуха измеряется как 0 дБ SPL (уровень звукового давления), а порог боли — 120 дБ SPL. Следовательно, динамический диапазон составляет 120 дБ.

Децибел (дБ) — логарифмическая единица. Я пропущу здесь математику, но в основном с точки зрения мощности 120 дБ примерно в 1 000 000 000 000 раз мощнее, чем 0 дБ. Это очень широкий диапазон громкости для вас.

Каков

Возможный динамический диапазон записываемой музыки?

Динамический диапазон носителя записи (например, звуковой карты или ленты) — это разница между самым громким звуком, который может быть записан без искажений, и самым тихим звуком, который может быть записан без исчезновения фонового шума.Во времена магнитофона этот фоновый шум был шипением ленты, в настоящее время в цифровом формате это количество битов, которое мы можем записать.

Вот некоторые приблизительные динамические диапазоны различных носителей записи:

Диски для фонографов 78 об / мин

Компактная кассета

Цифровой

= 40 дБ быстро снижается до 30 дБ
и хуже из-за износа
= 50 дБ 16-битный звук = 96 дБ
24-битный звук = 144 дБ

Что такое

Полезный динамический диапазон записываемой музыки?

Вот примерные динамические диапазоны различных стилей музыки, исполняемой вживую:

Симфонический оркестр — 50 дБ
Камерная музыка — 30 дБ
Рок-группа — 20 дБ

Если мы хотим сделать нашу записанную музыку наиболее приятной для большинства слушателей, мы должны принять во внимание , какое оборудование и , где , они, вероятно, будут воспроизводить музыку.Предположим, это будет в обычной домашней среде с фоновым шумом 40 дБА [1] (A в дБА — это особый тип измерения дБ, который учитывает, что ухо более чувствительно на средних частотах).

Мы также предположим, что максимальная громкость, которую они собираются воспроизводить, составляет 100 дБА, это громко.

100 дБа (максимальная громкость) — 40 дБа (фоновый шум) = динамический диапазон 60 дБ

Теперь мы приблизились к тому, что средний слушатель Hi-Fi может слышать только динамический диапазон 60 дБ, но он ниже этого! Когда самые тихие части музыки находятся на пороге их слышимости, это не будет весело, их будет сложно слушать.

Можно сделать следующее обобщение по тематике статьи:

Полезный динамический диапазон для записанной музыки для среднего слушателя составляет 30 дБ

Итак, мы снова вернулись к используемому динамическому диапазону изношенного винила 78 об / мин 🙂

Почему динамический диапазон — это хорошо при записываемой музыке?

Если музыкальное произведение имеет одинаковую громкость на всем протяжении, действительно ли оно вообще громкое? Если нет тихих частей, как мы можем определить громкие части? Часто припев, естественно, хочет быть громче куплета, чтобы придать ему эффект.Переход от шепота к крику требует большого динамического диапазона. Когда мы создаем и производим музыку, мы можем использовать динамический диапазон, чтобы помочь музыкальному выражению. Мы можем объединить в одной песне мягко щипковые гитары и динамичные басовые партии в стиле техно.

Так что же такое сжатие динамического диапазона?

Теперь мы точно понимаем, что такое динамический диапазон, и можем очень легко ответить на вопрос, что такое сжатие динамического диапазона. Это просто , что делает разницу между самой тихой и самой громкой частями за вычетом .Это делается по разным причинам, в том числе:

  • Чтобы сделать звук записи громче, уменьшив его самые громкие участки, тем самым увеличив громкость тихих участков (при мастеринге).
  • Чтобы отдельные элементы в записи оставались на более постоянной громкости, например, сжатие динамического вокала, чтобы тихие части не терялись под остальной частью микса, а громкие части не выскакивали (при микшировании).

Сжатие динамического диапазона отличается от нормализации. Чтобы точно узнать, что это такое, ознакомьтесь с моей статьей «Как нормализовать звук — зачем это делать?». Все, что Вам нужно знать.

Заключение

Человеческое ухо — удивительно тонкое устройство, оно может слышать огромный диапазон громкости от ветра, мягко шуршащего в деревьях, до взрывающейся бомбы.

Благодаря современной технологии записи и воспроизведения у нас есть более широкий динамический диапазон, чем мы когда-либо могли бы использовать. У нас был 96 дБ динамического диапазона, доступного с 80-х годов с CD. Ранее мы продемонстрировали, что максимальный диапазон, который может слышать средний слушатель, составляет около 60 дБ, а на самом деле он когда-либо захочет — 30 дБ.

Сегодня очень мало записанной музыки имеет динамический диапазон 30 дБ. Многие современные музыкальные стили не требуют такого многого. Часто динамический диапазон слишком сильно уменьшается при мастеринге, это темная сторона сжатия динамического диапазона и приводит к «войне громкости».

Мы скоро поговорим об искусстве сжатия динамического диапазона при микшировании и мастеринге, сжатии, ограничении, настройках компрессора, таких как атака / релиз / порог и многом другом. Для этого мы должны дождаться части 2.

* [1] http: // www.easa.europa.eu/rulemaking/docs/research/Background_noise_report.pdf

Аудио с динамическим диапазоном [объяснено экспертом]

Динамический диапазон (DR) аудио — это разница между максимальным и минимальным уровнями сигнала в первом подходе. Но не все так просто. Ознакомьтесь с пояснениями к методам измерения, их отличиям от разработчика аудиопрограммы Юрия Корзунова.

Введение

Динамический диапазон может иметь 2 значения: для аудиоустройства / программного обеспечения / формата и аудиосигнала.

  1. DR аудиоустройства — это разница между максимальным и минимально допустимым уровнем сигнала внутри устройства / программного обеспечения / формата.
  2. DR аудиосигнала — это разность между максимальным и минимальным уровнями сигнала.

В этой статье мы обсудим первое значение.

У динамического диапазона есть несколько определений. Потому что минимальный и максимальный уровни можно измерить по-разному.

Прочтите подробности о проблемах минимального и максимального уровней.

Как рассчитывается динамический диапазон

При прохождении сигнала через аудиоблок / программное обеспечение (как цифровой, так и аналоговый) его уровень ограничивается минимальным и максимальным значениями. Динамический диапазон рассчитывается как разница между этими уровнями:

DR = [Максимальный уровень, дБ] — [Минимальный уровень, дБ]

Максимальный уровень

Максимальный уровень звукового сигнала

Когда сигнал достигает значения перегрузки, в нем появляются нелинейные искажения, которые показаны в левой части изображения красными составляющими.

Перегрузка звука. Это выходной сигнал для входного синуса

Чистые цифровые системы (например, программное обеспечение) имеют четкую границу между искаженными и неискаженными сигналами.

Пример:

16-битный сигнал имеет максимальное значение: 2 15 -1.
Когда сигнал достигает следующего уровня ( 2 15 ), это вызывает перегрузку (математическое переполнение), и 2 15 преобразуется в -2 15 (минимально допустимое значение).

Перегрузка цифрового сигнала

Такое преобразование может вызвать громкий щелчок. Чтобы избежать щелчка, обработка выполняется с более высоким битовым разрешением. Перед преобразованием в целевое (более низкое) битовое разрешение сигнал проверяется на перегрузку. В случае перегрузки, уровень перегруженных образцов ограничивается максимально допустимым уровнем отсека. Такой вид перегрузки аналогичен традиционному аналогу, что вызывает искажения без больших «щелчков цифровой перегрузки».

Аналоговая перегрузка имеет плавную границу перегрузки.В правой верхней части картинки отображается характеристика уровня ввода-вывода.

Аналоговые нелинейные искажения. Характеристика ввода-вывода

При приближении уровня входного сигнала к максимальному значению искажения тоже растут. Потому что интенсивность искажений зависит от уровня из-за нелинейности.

Характеристики уровня входа-выхода показывают зависимость выходного уровня от входного.

Эта характеристика может быть линейной (простая линия) или нелинейной, как на изображении.

Давайте посмотрим на самые высокие уровни. A-область при характерном воздействии на форму волны в области B выходного сигнала. Таким образом, вид нелинейности в A-области определяет искажения на выходе (B-область) при уровне входного сигнала около максимального значения. Другими словами, разные уровни входного сигнала создают на выходе различные уровни искажений.

Для цифрового сигнала может применяться простая двоичная логика («с искажением» или «без» искажения).

Для аналогового сигнала мы можем оценить различные уровни искажения для разных уровней входного сигнала.Плавная граница перегрузки.

Следовательно, для аналогового сигнала максимальный уровень может быть принят как уровень, вызывающий целевую интенсивность искажений.

Подробнее: Цифровое и аналоговое аудио …

В качестве примера за максимальный уровень может быть принят уровень, при котором доля искажений в общей энергии больше, чем целевое значение.

Минимальный уровень

Когда уровень сигнала уменьшается, он достигает минимального уровня шума и прячется под ним. Это справедливо как для цифровых, так и для аналоговых сигналов.

Минимальный уровень звукового сигнала

Имеется различие в характере шума. Аналоговый шум — это шум электронных компонентов. Чистый цифровой шум — это шум квантования. Захваченные цифровые сигналы имеют оба вида шума: от электронных компонентов и от квантования. Но для оценки минимального уровня это не имеет значения.

Следовательно, минимальный уровень имеет разное качество звука для разных значений.

Для чисто цифровых устройств и программного обеспечения качество определяется соотношением сигнал / шум.

Для аналоговых систем качество также определяется нелинейностью характеристики ввода-вывода измеряемого устройства.

Когда мы рассматриваем динамический диапазон как разницу между минимальным уровнем шума и уровнем перегрузки, оценка качества теряется.

Когда сигнал «тонет» в шуме, мы не можем его распознать. Так что такой способ оценки динамического диапазона слишком оптимистичен.

Мы хотим слушать минимальный уровень в заданном качестве. Качество определяется соотношением сигнал / шум.

Аналоговые системы имеют разную линейность для разных уровней. Нелинейность порождает искажения: спектральные продукты, которые коррелируют с исходным чистым сигналом. Таким образом, мы также должны учитывать искажения как шум. Мы можем посмотреть аналогичный пример с самыми высокими уровнями здесь.

Соотношение сигнал / шум

Отношение сигнал / шум — это соотношение между энергиями сигнала и шума.

Энергия может быть оценена как квадрат спектра мощности.

Power уровень 2 .

Отношение сигнал / шум в спектре мощности

Если мы можем локализовать спектр сигнала, то остальной спектр мы можем принять как шум и искажения.

Это причина, по которой мы не можем использовать музыку в качестве тестового сигнала. Музыка имеет плотный спектр и практически невозможно отделить шум, искажения и исходный сигнал.

Кроме того, использование сложных сигналов (например, многотональных) может вызвать проблемы с разделением сигнала и шума.

Мы можем постепенно снижать уровень шума для достижения заданного отношения сигнал / [шум и искажения]. Этот уровень принят как минимальный.

Расчет энергии сигнала (квадрата) значения не имеет. Но для разных методов полоса сигнала может приниматься по-разному.

Также можно рассчитать энергию шума и сигнала с учетом психоакустики: контур равной громкости.

Часто задаваемые вопросы

Что такое динамический диапазон в аудио? Что такое звук с динамическим диапазоном?

Динамический диапазон — это свойство аудиоустройства или обработки звука.Кроме того, диапазон уровня записи музыки считается динамическим диапазоном. Подробнее …

Что такое хороший динамический диапазон?

Как вид измерения динамический диапазон может иметь разные интерпретации, что связано с психоакустикой.

Также динамический диапазон зависит от музыкального жанра.

Примерно можно считать минимально допустимое отношение сигнал / шум самого низкого сигнала, как у аналоговых устройств — около 40 … 60 дБ. Это самое тихое место музыкального произведения.

Итак, чтобы найти разницу между максимальной громкостью и минимальным уровнем шума, мы должны прибавить разницу между самым тихим местом и максимальной громкостью фрагмента к SNR.

Примеры:

  1. Когда разница между фортиссимо и пианиссимо (максимальная и минимальная громкость) составляет 60 дБ: динамический диапазон составляет 60 дБ, а разница между максимальной громкостью и минимальным уровнем шума составляет 60 дБ + [40 … 60] дБ = 100 … 120 дБ.
  2. Когда разница между фортиссимо и пианиссимо (максимальная и минимальная громкость) составляет 80 дБ: динамический диапазон составляет 80 дБ, а разница между максимальной громкостью и минимальным уровнем шума составляет 80 дБ + [40…60] дБ = 120 … 140 дБ.

Что означает динамический звук?

Звук в громких (или слишком громких) и тихих (для тихих) местах.

Выводы

  1. Упрощенный динамический диапазон — это разница между сигналом, вызывающим перегрузку, и минимальным уровнем шума.
  2. При оценке динамического диапазона звука необходимо учитывать качество звука.
  3. Динамический диапазон по цели №2 имеет меньшую ценность, чем упрощенное определение по цели №1.

Упрощенная оценка динамического диапазона

Оценка динамического диапазона с учетом качества звука

Список литературы

Динамический диапазон Vynil

Динамический диапазон ленты


Читать статьи

Обновлено 12 февраля 2021 г. | с 20 ноября 2017 г.

Понимание динамического диапазона и сжатия при мастеринге

НЕДЕЛЯ МАСТЕРИНГА : Посмотрите видео выше, чтобы послушать Конора Далтона, инженера мастеринга, который управляет Glowcast Audio Mastering , объяснить динамический диапазон и сжатие и прочитать, что он говорит о мастеринге процесс ниже.

Что такое мастеринг?

«По моему опыту, мир мастеринга, его возможностей и ограничений, кажется, очень путан. Я бы назвал его последним звеном в цепочке создания музыки, где-то между финальным миксом и завершенным проект, в котором звук можно оптимизировать с помощью тонкой обработки, проверки ошибок и доведения всех задействованных до совершенства. Это процесс творческого улучшения звука перед подготовкой и переносом записанного звука на такое устройство, как компакт-диск или винил, и не дает возможности сделать ремикс. или исправить плохую запись.«

» Этот мастер является копией, из которой создаются все последующие копии. »

Что включает в себя мастеринг?

« Мастеринг — это последний шанс, который вы получаете для звукового изменения вашей музыки с помощью таких методов, как эквалайзер и сжатие и последний шанс извлечь максимум из своего звука. Как мастеринг-инженер, моя работа состоит в том, чтобы объединить все отдельные элементы песни вместе в гармонии, а также сбалансировать тональность песни с помощью эквалайзера и устранить мелкие недостатки, такие как треск и щелчки.

«Как я уже говорил, если у вашего микса есть проблемы, вам будет сложно получить великолепно звучащую мастеринную запись. Мастеринг — это не место для исправлений, это скорее искусство баланса: аудио фэн-шуй, Если хотите. Это означает, что плохой микс никогда не станет хорошим, но он определенно может помочь сделать хороший микс отличным. При мастеринге для компакт-диска треки также располагаются на соответствующем расстоянии между ними, так что весь альбом хорошо воспроизводится и ISRC и при необходимости могут быть встроены коды UPC / EAN.Затем создается «мастер», например цифровой файл WAV или AIFF, компакт-диск или винил.

«Этот мастер — копия, из которой создаются все дальнейшие копии. Цель мастеринга — добиться того, чтобы готовые песни отлично звучали на любой звуковой системе, будь то концертная установка на стадионе или домашняя стереосистема. Вы хотите, чтобы мастеринг был в основном конструктивное, а не корректирующее: вы хотите улучшить звук, а не тратить все свое время на исправление ошибок, которые произошли во время микширования. Поэтому важно, чтобы ваш микс звучал так, как вам нравится, насколько это возможно, прежде чем освоение.

«Ваша задача при применении творческих методов обработки на этапе мастеринга — распознать точку, в которой вы успешно переместили звук в его оптимальное положение, прежде чем звук начнет ухудшаться из-за чрезмерной обработки. Это также может включать настройку ширины стереозвука. , хирургический эквалайзер для удаления нежелательных резонансов и ограничения, например ».

«Понимание ваших возможностей и ограничений — это суть мастеринга».

Сможете ли вы сделать мой трек громким на стадии мастеринга?

«Да, но вы должны понимать, что громкость достигается за счет динамического диапазона.Мастеринг — это не просто создание чего-то громкого. Меня часто спрашивают, могу ли я сделать чью-то песню «такой же громкой, как» другой исполнитель, и одна из самых распространенных проблем, с которыми я сталкиваюсь при прослушивании треков, которые мне присылают в качестве мастеринг-инженера, — это чрезмерная компрессия микса для достижения громкости.

«Громкость на самом деле иллюзия, поскольку у всех нас есть регулятор громкости на нашем Hi-Fi или стерео: я поговорим об этом подробнее в видеоуроках с журналом этого месяца. Хотя часто желательно стремиться к конкурентоспособной громкости, это не так. разумно полностью убить динамический диапазон вашей песни, чтобы добиться этого.Когда вы уменьшаете расстояние между самым громким пиком и самым тихим звуком посредством сжатия для достижения громкости, вы можете добиться более «полного» звука.

«Однако, если вы заходите слишком далеко и переусердствуете, вы жертвуете некоторыми важными и мощными пиками в пользу более тихих звуков, и в результате вы нарушаете некоторую звуковую целостность для достижения такой громкости. Понимание ваших возможностей и ограничений — это суть мастеринга ».

Могу ли я мастерить свою музыку?

«Конечно, вы можете, однако одно из основных преимуществ профессионального мастеринга вашей музыки кем-то другим — это свежий набор ушей, который позволяет по-новому взглянуть на вашу музыку.Все мы знаем это чувство, когда вы слушали свой трек в течение нескольких недель и просто не можете сказать, требуются ли больше творческие изменения в обработке. Здесь может быть важна свежая перспектива: первое впечатление часто может многое рассказать о вашем аудио ».

Совет по сжатию

« При использовании сжатия помните, что увеличение или уменьшение громкости, добавленное компрессором, обманчиво. Хорошая практика — всегда согласовывать громкость на выходе с дополнительным усилением, поэтому убедитесь, что сжатые и несжатые сигналы имеют одинаковую громкость, когда вы включаете / выключаете компрессор.Таким образом, вы слышите только эффекты сжатия, а не бесполезное изменение громкости, которое может обмануть вас, заставив думать, что, поскольку сжатый сигнал громче, он «лучше». Это хороший способ сохранить целостность звука при настройке динамического диапазона посредством сжатия. «

Понимание динамического диапазона

» Понимание динамического диапазона важно для достижения хорошего звука. Это разница и расстояние между самым громким пиком трека и самым тихим звуком.Сжатие сокращает это расстояние для достижения общего ощущения повышенной «громкости». Теперь рассмотрим эту аналогию: представьте динамический диапазон человеческого голоса в повседневном разговоре.

«Самый громкий звук в разговоре — это крик, а самый тихий звук — это шепот. Если вы уменьшите расстояние между криком и шепотом, весь ваш разговор может стать более откровенным и прямо перед вашим лицом, более возбуждающе, а шепот легче слышать за счет тонкого приглушения крика одним прикосновением.

«Тем не менее, подумайте о последствиях того, чтобы зайти слишком далеко. Крик смягчается, что означает меньшее воздействие и резкость, а шепот становится неуместно громким, что означает отсутствие секретов: ваш разговор станет менее выразительным, эмоциональным и артикулированным, если вы уменьшите динамический диапазон слишком велик для достижения общей громкости.

«То же самое и с музыкой. Ваша задача на этапе мастеринга — распознать, какое сжатие (если оно есть) необходимо и насколько оно подходит, прежде чем звук начнет ухудшаться и целостность звука будет нарушена для достижения громкости.Помните, что человеческое ухо, естественно, предпочитает некоторый динамический диапазон в музыке, а слишком громкий и сжатый звук очень утомляет слушать через некоторое время, поскольку ему не хватает глубины. Представьте себе американские горки, которые не поднимаются и не спускаются, а просто движутся по прямой высоко в воздухе, это было бы не очень интересно, не так ли? Нас волнуют взлеты и падения в музыке (и американские горки), поэтому, если все станет громким, важные элементы песни, которым следует уделить приоритетное внимание, потеряют влияние.«

«Динамический диапазон» и война за громкость

Все мы знаем, что музыка становится громче. Но разве это менее динамично? Наше новаторское исследование вне всяких сомнений доказывает, что ответ отрицательный и что распространенные представления о «войне за громкость» нуждаются в радикальном переосмыслении.

Почему музыка звучит хуже ». «Поклонники жалуются, что после смерти магнитные звуки лучше на Guitar Hero, чем на компакт-диске». «Все громче, чем все остальное». «Даже фанаты хэви-метала жалуются, что сегодняшняя музыка слишком громкая!» «День динамического диапазона знаменует новое движение против громкости.«Смерть High Fidelity» … В прессе и в Интернете растет негативная реакция на «войну за громкость», практику попыток сделать записи максимально громкими, чтобы они воспринимались как «более горячие». ‘, чем конкурирующие релизы. Согласно статьям, подобным этой, необоснованные практики мастеринга и, в частности, злоупотребление ограничителями кирпичной стены поставили музыку под угрозу. Современным продуктам не хватает утонченности и жертвуют качеством ради уровня. Боб Дилан в интервью 2006 года: зашел так далеко, что заявил: «Вы слушаете эти современные записи, они ужасны, они звучат повсюду.Нет определения «ничего», «вокала», «ничего», просто как статика ».

Но не является ли замечание Дилана воспроизведением ссоры между древними и современниками? Это не первый случай, когда старая гвардия презирает то, что делает новое поколение. Действительно, многие звукорежиссеры присоединились к делу «более динамичной» музыки. Но высказываются ли они за то, что объективно лучше, или они просто выражают свое предпочтение определенному стилю звука? Мое исследование направлено на то, чтобы ответить на этот вопрос.Узнаем, действительно ли свежая музыка громче, а не менее динамична. Мы также рассмотрим гипотезу о том, что громкость может быть стилистическим маркером для определенных недавних музыкальных стилей, а не быть дурной привычкой, мотивированной только презренными коммерческими соображениями. Наконец, мы внимательно рассмотрим пресловутый Death Magnetic Metallica и поймем, почему так много людей утверждают, что он звучит плохо.

Да, и в этом нет никаких сомнений. Давайте возьмем большое количество бестселлеров и / или очень хорошо принятых произведений «поп-музыки», записанных и произведенных в период с 1969 по 2010 год, нормализуем их так, чтобы они достигли пика на уровне 0 дБ полной шкалы, и измерим их среднеквадратичное значение.Затем отсортируем все значения по году выпуска трека, которому они соответствуют. Первая диаграмма слева показывает результат эксперимента, и он действительно впечатляет! Красная линия показывает среднеквадратичное значение для каждого года, а прямоугольники указывают на распределение: чем темнее прямоугольник, тем больше частей показывает такой уровень. Без сомнения, между 1982 и 2005 годами наблюдается постоянный рост средних уровней, и сегодняшние записи примерно на 5 дБ громче, чем они были в 70-х годах.

Следует признать, что измерение среднеквадратичного значения сигнала дает только информацию об «электрическом» или «физическом» содержании аудиофайла, а не меру громкости, как мы ее воспринимаем. Для этого мы оцениваем «интегрированную громкость», как определено в нормативной рекомендации EBU 3341. Как видно на второй диаграмме слева, в контексте нашего корпуса песен такая мера сильно коррелирует со значением RMS сигнала, и эти два графика очень похожи друг на друга. Этот второй набор результатов подтверждает первый.

Повторим эксперимент, используя другие критерии. Например, одним из критериев, обычно используемых для описания динамического поведения записанного музыкального произведения, является «пиковый» фактор. Проще говоря, пик-фактор — это разница между среднеквадратичным уровнем и пиковым уровнем в течение песни. Интуитивно он измеряет амплитуду возникающих «пиков» в аудиопотоке. Это считается хорошим показателем количества динамического сжатия, примененного к музыке: большее сжатие обычно означает более низкий коэффициент амплитуды.Некоторые профессионалы считают правильное обращение с гребенчатым фактором краеугольным камнем успешного мастеринга. Кроме того, в целом, чем ниже коэффициент амплитуды, тем громче музыка.

Третья диаграмма на первой странице показывает эволюцию меры, аналогичной пик-фактору. На основе тех же 4500 треков этот упрощенный коэффициент амплитуды падает на 3 дБ с начала 80-х, усиливая подозрение, что увеличение громкости, которое мы наблюдаем с 90-х годов, было вызвано динамической компрессией.Вы увидите, что эволюцию пик-фактора можно разделить на три этапа. Во-первых, с 1969 по 1980 год коэффициент амплитуды увеличивается, вероятно, из-за улучшения студийного оборудования с точки зрения отношения сигнал / шум и динамической прозрачности. С 1980 по 1990 год пик-фактор остается относительно стабильным. Затем, с 1990 по 2010 год — эпоха войны за громкость — пик-фактор резко снизился.

Наконец, еще один важный и полезный дескриптор — это пропорция сэмплов в записанном музыкальном произведении, которая близка к 0dBFS после нормализации фрагмента.Высокая плотность очень громких сэмплов говорит о том, что было разрешено клипирование основной записи или что использовался упреждающий ограничитель кирпичной стены, такой как Waves L-серии. Четвертая диаграмма показывает плотность пиковых выборок в том же корпусе из 4500 треков. Первые две диаграммы показывают, что музыка стала громче; третий указывает на то, что это развитие, вероятно, связано с динамическим сжатием; и эта иллюстрация показывает, что такое сжатие, вероятно, применяется через цифровые ограничители кирпичной стены.

Это удивительно сложный вопрос. Интуитивно мы чувствуем, что динамический диапазон должен определять, насколько «изменчивым» или «мобильным» является музыкальный уровень. Попробуем наполнить эту интуицию содержанием. На первой диаграмме на предыдущей странице сравнивается эволюция RMS-значения сигнала для отрывков из двух песен: «Fuk» от Plastikman и «Smells Like Teen Spirit» от Nirvana. Видимо, уровень «Smells Like Teen Spirit» более подвижен, чем уровень «Fuk». Это неудивительно, учитывая, что музыка Plastikman — это минималистское техно, тогда как в постановках Nirvana часто используются мягкие куплеты и громкие припевы.

Однако результаты радикально изменятся, если мы проведем анализ с использованием окна анализа в 100 миллисекунд вместо двух секунд. В долгосрочной перспективе музыка Plastikman будет более стабильной с точки зрения уровней RMS, но в краткосрочной перспективе, как вы можете видеть на второй диаграмме, кажется, что она имеет больше вариаций уровня из-за ее громких сухих барабанов. Поэтому, если мы хотим установить меру «мобильности на уровне», нам нужно подумать о том, какую временную шкалу использовать.

Существует также вопрос, как на самом деле вычислить этот уровень мобильности: как получить числовое значение, которое могло бы быть мерой «динамического диапазона».Возможно, мы могли бы измерить общую вертикальную амплитуду кривой RMS, соответствующей музыкальному произведению для заданного временного масштаба, суммируя амплитуду каждого вертикального движения. Интуитивно это имеет смысл: если снова взглянуть на верхнюю диаграмму на второй странице этой статьи, на которой синяя кривая выглядит более подвижной, чем красная, общая вертикальная амплитуда синей кривой больше, чем красная. (Математически это равносильно оценке суммы производной RMS.)

Однако на практике этот метод оказывается ненадежным. Помимо других проблем, изолированный пик на плоской кривой RMS исказил бы измерение, создав ложное впечатление о значительной подвижности RMS. Лучший метод, аналогичный тому, который используется EBU для оценки диапазона громкости, состоит в том, чтобы иметь дело с изменчивостью RMS, а не с ее подвижностью. Вместо того, чтобы напрямую оценивать «среднеквадратичную мобильность», мы вычисляем распределение среднеквадратичных значений, обнаруженных во время анализа.Такое распределение показано на третьей диаграмме группы, о которой я говорил. Затем мы измеряем «разброс» кривой распределения, используя трюк, аналогичный «методу межквартильного размаха» в описательной статистике: при разбросе кривой остаются в покое верхние пять процентов и нижние 10 процентов значений. Мы можем видеть, что для двухсекундного окна анализа «Smells Like Teen Spirit» имеет более высокий разброс RMS, чем «Fuk».

Давайте снова изменим шкалу времени и измерим этот RMS «разброс» со значениями RMS каждые 0.1с. Результат эксперимента показан на четвертой диаграмме, и снова результаты поменялись местами: разброс для «Fuk» больше, чем для «Smells Like Teen Spirit». Предположим, что теперь мы повторяем один и тот же эксперимент для различных окон анализа. Результат показан на последней диаграмме той же группы. Интересно, что вариативность уровней для «Smells Like Teen Spirit» всегда больше, за исключением окон ниже 0,18 секунды, где барабанные партии в «Fuk» оказывают решающее влияние.

То, что показано на пятой диаграмме, является очень хорошим кандидатом для измерения «динамического диапазона» музыкального произведения.Предположим теперь, что вместо того, чтобы иметь дело со среднеквадратичным значением сигнала, мы имеем дело с мерой воспринимаемой громкости, такой как та, которая упоминается в рекомендации ITU BS 1770: теперь мы будем иметь дело с «диапазоном громкости». Фактически, это основа того, как EBU определяет «диапазон громкости» в своем документе EBU Tech 3342, как объяснено в блоке «EBU Measure Of Loudness Range».

Остается вопрос, следует ли вообще использовать такой термин, как «динамический диапазон»: для него нет официального определения, и его можно спутать с динамическим диапазоном носителя записи, который, по сути, является разницей между самый высокий и самый низкий уровень, с которым он может справиться.Поэтому в этой статье я не буду говорить о «динамическом диапазоне» применительно к музыкальному произведению. Вместо этого я буду использовать «среднеквадратичную изменчивость» или, в более общем смысле, «динамическую изменчивость». Термин «динамический диапазон» будет зарезервирован для измерения отношения сигнал / шум носителя записи. Я буду использовать термин «диапазон громкости» в строгой ссылке на документ EBU 3342, а термин «изменчивость громкости» — в других случаях, когда речь идет о громкости, а не о среднеквадратичном значении.

Вот где начинаются неожиданности.Мы можем без всяких сомнений доказать, что «война за громкость» не уменьшила диапазон громкости, как это определено в EBU 3342! Также это никоим образом не уменьшило изменчивость уровня или громкости. Музыка последнего десятилетия, кажется, демонстрирует такую ​​же динамическую изменчивость, как музыка 70-х или 80-х годов. Обоснуем это утверждение.

Как мы видели выше, такие дескрипторы, как уровень RMS, интегрированная громкость, упрощенный коэффициент амплитуды и доля отсчетов выше -1dBFS, демонстрируют впечатляющую эволюцию с начала 90-х до примерно 2005 года.Это эффект войны за громкость. Так что, конечно же, измерение диапазона громкости EBU должно делать то же самое? Как показано на первой диаграмме группы на странице 179, это не так. Мы видим, что диапазон громкости уменьшается с 1969 по 1980 год, а затем стабилизируется до 1991 года. После 1991 года, вместо того, чтобы снижаться, как ожидалось, он следует довольно неубедительной эволюции и, конечно, не уменьшается каким-либо явным образом.

Как мы также видели выше, плотность высокоуровневых сэмплов в аудиосигнале резко возрастает после начала 90-х годов.Это указывает на растущее использование компрессии и, в частности, цифровых ограничителей, которые, в свою очередь, повышают общий уровень музыкального корпуса, с которым мы имеем дело. Но может ли использование таких ограничителей быть связано с уменьшением диапазона громкости? Давайте ответим на этот вопрос, отобразив значения EBU 3342 в зависимости от плотности выборки высокого уровня — другими словами, построив график зависимости диапазона громкости от применяемого ограничения. Это то, что показано на второй диаграмме, которая предельно ясно показывает, что ответ отрицательный.Увеличение количества ограничений, выполненных в эпоху войны за громкость, никоим образом не уменьшило наблюдаемый диапазон громкости.

Это не означает, что обработка звука с помощью ограничителя не уменьшит его диапазон громкости. Как мы увидим позже в статье, это так. Наблюдение здесь заключается в том, что из анализа реальных записей, война за громкость не привела к какому-либо очевидному снижению диапазона громкости музыки.

Тем не менее, «диапазон громкости», как определено EBU 3342, имеет дело с шкалой времени около трех секунд и выше.Посмотрим, что произойдет, используя другие оконные анализы. Для этого давайте оценим изменчивость стробированного RMS на основе окон длиной от 0,05 до 12,8 с. А чтобы быть более конкретным, давайте изменим оценку изменчивости RMS так, чтобы она выделяла соответствующее влияние каждой временной шкалы. Таким образом, мы сможем увидеть, уменьшила ли война за громкость изменчивость уровня в любом временном масштабе. Результат обоих экспериментов показан на третьей диаграмме. Это не только подтверждает предыдущие выводы, но и идет намного дальше, показывая, что война за громкость не оказала четко определенного влияния на изменчивость уровня в любом масштабе.Это довольно резкий вывод: в отличие от того, что часто можно прочитать в Интернете, война за громкость не привела к снижению вариабельности уровня. Сейчас уровень вариативности такой же, как и в 70-е или 80-е годы.

Чтобы подтвердить эти выводы, я попросил доктора Дамьена Тардье, специалиста по обработке сигналов в IRCAM в Париже, провести аналогичный анализ совершенно другого музыкального корпуса: 20 000 песен, случайно выбранных из каталога EMI. По общему признанию, альбомы в этом каталоге упоминаются по датам авторских прав, поэтому анализ будет немного менее надежным, если компиляции будут собирать более старые треки с более поздними авторскими правами, или с помощью обновленных изданий.Однако здесь нам нужна общая оценка глобального явления, поэтому мы можем позволить себе небольшую погрешность. Четвертая и пятая иллюстрации на предыдущей странице показывают эволюцию диапазона громкости, измеренного в соответствии с EBU 3342, а также плотность очень громких сэмплов, соответствующих этому корпусу. Они показывают, что диапазон громкости не уменьшается после 1990 года, хотя ограничение становится гораздо более резким. В этом нет никаких сомнений: вопреки общему мнению, не было явного уменьшения диапазона громкости из-за войны за громкость, а ограничители с каменной стеной не уменьшили диапазон громкости при производстве музыки.

Как мы видели ранее, степень сжатия / ограничения, используемая при мастеринге, резко увеличилась в период с 1990 по 2000 год. Тем не менее, в то же время, даже несмотря на то, что ограничение может во многих случаях уменьшить диапазон громкости музыкального произведения (см. ‘Диапазон громкости & Limiters ‘), общее уменьшение диапазона громкости в постановках невозможно. Как разрешить это кажущееся противоречие?

Первая возможность состоит в том, что мастеринг-инженеры могли быть разумными в конце концов, применяя только такое ограничение, которое не привело к очевидной потере диапазона громкости.Это, как показано в поле «Диапазон и ограничение громкости», теоретически возможно, поскольку среднеквадратичная изменчивость аудиоматериала может демонстрировать определенную устойчивость к ограничению. Однако я не верю, что это так. Существенное ограничение можно измерить или наблюдать на форме волны, и его легко услышать: атаки изменяются очень специфическим образом, все кажется более плотным, более плотным и часто более ярким. После прослушивания очень большого количества треков из корпуса, который я использовал для этой статьи, очевидно, что большая часть недавних треков сильно ограничена.

Остается только одно решение, которое я могу придумать: диапазон громкости музыки до мастеринга или даже микширования увеличивался в то же время, когда сжатие / ограничение становилось все более резким. Другими словами, исходный материал имеет большую исходную изменчивость и более устойчив к ограничениям. Об этом свидетельствуют стилистические изменения в музыке в эпоху «войны за громкость». Начало 90-х, которое соответствует началу войны за громкость, засвидетельствовало появление рэп-исполнителей для массовой аудитории, а рэп-музыка обычно имеет редкую продукцию с очень громкими частями бочки и малого барабана, что увеличивает вариативность уровня в очень малых масштабах. (0.1 с или около того). Примерно в то же время металлическая музыка превратилась в «ню-метал», который объединил элементы фанка и рэпа, а вместе с ними и более ударные элементы. В несколько большем масштабе времени образцы в конце музыкальных фраз также развивались примерно в начале 90-х. В то время как многие хиты 80-х переходили от одной музыкальной фразы к другой с использованием мягкого ролла тома, хип-хоп продюсеры 90-х предпочитали резкие « сокращения » звука, которые могут увеличивать вариативность уровня на шкалах, близких к 0. .5сек.

В еще более широком временном масштабе, связанном со структурой песен, можно было бы выдвинуть идею о том, что современные постановки используют контрасты по уровню, тогда как в старых поп-песнях, возможно, использовались изменения тональности или аккорда для выделения различных частей песни. Довольно часто можно услышать рэп или даже треки R&B, в которых куплеты настолько мимиминалистичны, что из них сложно даже выделить последовательность аккордов, в то время как в то же время припев погребен под плотными вокальными гармониями и / или щедрыми тональными партиями клавиатуры, что немного увеличьте уровень RMS.«Леденец» Лил Уэйн или «Gangsta’s Paradise» Кулио — достаточно хорошие примеры, как и, в определенной степени, «Одинокие дамы» Бейонсе. В подобных постановках изменение уровня используется для создания структуры песни.

Чтобы проиллюстрировать это, интересно сравнить две очень разные песни из разных эпох: Beatles «Come Together» (1969) и Lady Gaga «Telephone» (2010). На верхнем изображении на обороте показан RMS-анализ для двух песен. Белые линии указывают на структурные ограничения песни, как на слух.Две диаграммы в виде шахматной доски показывают матрицы самоподобия для RMS. В таких представлениях самоподобия более четкие квадраты обозначают части, которые отличаются друг от друга с точки зрения уровня, тогда как более темные квадраты обозначают части схожих уровней. Это сравнение является показательным: крупномасштабные вариации уровня больше в «Telephone» и очень синхронизированы со структурой песни. Это единственный пример, но он дает правдоподобное объяснение идеи о том, что крупномасштабная изменчивость RMS до мастеринга может быть больше в случае более новой музыки.

Определенно. Но способ выражения музыкальной динамики может измениться. Представьте, что вы слушаете музыку. Вы хотите, чтобы это было громче. Вы идете к регулятору громкости и просто увеличиваете громкость. Поступая таким образом, вы увеличиваете RMS сигнала, увеличиваете его пиковый уровень и оставляете его пик-фактор нетронутым. Мы назовем это «первой парадигмой громкости». Предположим теперь, что у вас есть область в Pro Tools с пиком 0dBFS. Вы не можете увеличить его громкость традиционным способом, иначе он будет искажаться.Но вы можете вставить ограничитель и опустить его ползунок Threshold. Поступая таким образом, вы все равно увеличиваете RMS сигнала, но на этот раз его пиковый уровень остается стабильным, а его пик-фактор уменьшается. Это то, что мы называем «второй парадигмой громкости».

Когда Вагнер пишет оркестровое крещендо, он использует первую парадигму, добавляя больше инструментов. Но, используя ограничители, вы можете создать крещендо, использующее вторую парадигму. Разница в терминах результирующей формы волны показана на верхнем изображении напротив: Майк Олдфилд использует первую парадигму в конце первой части Tubular Bells, а вторую — в «Closer» Трента Резнора.

Чтобы получить более точное представление о разнице между обеими парадигмами, давайте возьмем шесть крещендо из шести разных записей, три из которых используют первую парадигму, а три — вторую. Давайте проанализируем их с точки зрения RMS, пикового уровня и пик-фактора. Результат этого анализа показан на второй диаграмме справа. Первый график показывает, что все крещендо основаны на повышении уровня RMS. Второй график четко различает треки, использующие две парадигмы: в случае второго пиковый уровень постоянен.Третий график показывает, что пик-фактор систематически уменьшается в этих крещендо, но предполагает, что в остальных случаях нет связи между пик-фактором и громкостью.

Можно утверждать, что крещендо, использующее вторую парадигму, не являются «чистыми» динамическими событиями: чем громче становится музыка, тем больше ограничителю разрешено изменять сигнал, и тем больше он изменяет исходный тембр. Но разве то же самое нельзя сказать о традиционных крещендо? Выполнение крещендо на отдельной скрипке не только изменит ее уровень, но и изменит ее тембр.И большинство оркестровых крещендо по мере своего развития включают в себя дополнительные инструменты. Комбинация этих двух факторов приводит к гораздо более резкому изменению тембра, чем любой ограничитель кирпичной стены мог когда-либо вызвать.

Последний альбом

Metallica стал настоящим поводом для противников современной практики мастеринга. Насколько я могу судить, основная проблема Death Magnetic — это коллизия между способом его мастеринга и гитарным звучанием. Очень агрессивный мастеринг просто не подходит для производственного стиля Metallica, который восходит к 80-м годам и в значительной степени полагается на твердые, искаженные гитары.Подводя итог, можно сказать, что в результате получается музыка, которая в целом стабильна и в то же время имеет очень низкие значения коэффициента амплитуды. С точки зрения восприятия это переводится как «все время компактно».

Диаграмма 1 из группы на последней странице показывает распределение 4500 упрощенных значений коэффициента амплитуды, соответствующих корпусу, который мы использовали для статьи, вместе со значениями для треков из Metallica’s Master Of Puppets и Death Magnetic. Анализ других альбомов Metallica, таких как…И «Справедливость для всех» или альбом «Black» демонстрируют значения пик-фактора, аналогичные показателям Master Of Puppets. Глядя на эту диаграмму, мы можем видеть не только то, что все треки из Death Magnetic имеют значения пик-фактора, которые значительно ниже, чем у «обычных» альбомов Metallica, но и что эти значения просто чрезвычайно низкие по сравнению с любой музыкой из корпуса.

Такие значения пик-фактора сопоставимы с тем, что можно найти на треках из My Beautiful Dark Twisted Fantasy Канье Уэста или Get Rich Or Die Tryin ’50 Cent.Это стилистически громкие альбомы городской музыки с действительно сильными ударными элементами, которые выражают сочинение и лучше подходят для низких значений пик-фактора, чем постоянно гудящие гитары Metallica. Они также сопоставимы с треками из Oracular Spectacular или Congratulations от MGMT, двух альбомов со звуком, настолько отличительным, что постоянное использование второй парадигмы громкости и / или артефактов динамического сжатия вообще не проблема. Но «классический» звук Metallica просто не допускает звуковой феерии.

Диаграмма 2 из той же группы показывает изменчивость RMS Death Magnetic по сравнению с Master Of Puppets, а также двумя другими альбомами с низкими значениями пик-фактора: My Beautiful Dark Twisted Fantasy и Congratulations. Вот здесь и начинаются настоящие неприятности. Death Magnetic не только звучит очень «компактно» из-за низких значений коэффициента амплитуды, но и очень стабильно (низкая изменчивость RMS). Это означает, что он чрезмерно компактный … все время. Диаграмма 3 из той же группы суммирует это, показывая, насколько необычна такая комбинация низких значений коэффициента амплитуды и уменьшенного диапазона громкости EBU 3442.Это сравнимо не более чем с тремя песнями MGMT. Даже иногда невероятно сжатый My Beautiful Dark Twisted Fantasy не может конкурировать: он сохраняет гораздо больше контраста, чем Death Magnetic. И хотя она примерно такая же стабильная, как музыка Dagoba, индастриал-метал-группы с дэт-металлическим вокалом, которая специализируется на эффектно громких, компактных и плотных произведениях, Death Magnetic гораздо более сжатая. На мой взгляд, так и есть: вы не хотите, чтобы традиционный, мейнстрим-металл звучал более компактно, чем нарочито экстремальный индастриал / дэт-метал.Или, если вы это сделаете, вам придется изменить саму музыку, чтобы сделать ее более контрастной, чтобы она могла позволить себе или даже извлечь выгоду из такого большого сжатия.

Легко найти людей, документы, веб-страницы и т. Д., Которые единодушно обвиняют войну за громкость в нанесении ущерба музыке. Многие из них также связывают войну за громкость с уменьшением «динамического диапазона», хотя обычно не объясняют, каким может быть динамический диапазон. Примеры таких статей можно найти в Интернете по адресу http: // lakefieldmusic.com / the-volume-war-stop-here-high- dynamic-range-audio-recordss, http://dynamicrangeday.co.uk/about/, в Википедии (http://en.wikipedia.org / wiki / Loudness_war # Dynamic_range_reduction), и даже в уважаемом научном журнале IEEE Spectrum (http://spectrum.ieee.org/computing/software/the-future-of-music). Однако во время этой статьи мы видели, что война за громкость на самом деле не привела к какому-либо уменьшению ближайшего четко определенного дескриптора к «динамическому диапазону», который представляет собой диапазон громкости, определенный в техническом документе EBU 3342.Также невозможно констатировать уменьшение динамической изменчивости ни в каком масштабе.

Так в чем проблема с войной за громкость? Очевидно, что ограничение делает что-то «неправильное» с сигналом, иначе люди не стали бы так сильно жаловаться, даже если бы они явно указывали на неправильный дескриптор сигнала.

Чтобы правильно ответить на этот вопрос, может быть полезно принять точку зрения, обычно используемую при обработке изображений, когда можно анализировать фотографию или любое изображение с точки зрения распределения яркости.Photoshop делает это в диалоге под названием «Уровни». Чтобы оценить такое распределение, алгоритм проводит инвентаризацию всех пикселей изображения и сортирует их по яркости. Это приводит к графику распределения, который показывает, включает ли изображение в целом преимущественно светлые, средние или темные области и в какой степени. Тот же процесс можно проделать с аудиофайлами: мы проводим инвентаризацию всех сэмплов из песни и сортируем их по их абсолютному уровню. Как показано на изображении на обороте, полученная кривая распределения может многому нас научить.

Посмотрите на среднюю кривую распределения для песен, выпущенных в 2007 году. Ее пики находятся на более высоком уровне, чем средняя кривая для песен 1967 года. Это означает, что в 2007 году песни в целом стали громче. Затем посмотрите на «ширину» обеих кривых: они сопоставимы, что в основном означает, что что-то, тесно связанное с динамической изменчивостью, не изменилось с 1967 по 2007 год. отступ справа от кривой 2007 года: песни этого года имеют неестественно высокую плотность высокоуровневых сэмплов: вблизи высоких уровней распределение уровней внезапно перестает следовать нормальному распределению Гаусса.Сравните формы двух кривых: похоже, синяя была буквально «сдвинута» вправо. Это показывает результат ограничения кирпичной стены.

Если продолжить сравнение с изображениями, это как если бы за последние 20 лет все картинки в книгах и журналах становились все ярче и ярче. По-прежнему есть глубокий черный цвет, контраст остается неизменным, но все изображения выглядят ярче. Это иллюстрируется фотографиями Тауэрского моста на изображении. Как будто все в наши дни должно выглядеть «кричащим», хотя здравый смысл подсказывает, что есть некоторые изображения, которые совсем не должны выглядеть кричащими в любой ситуации.Это тем более верно в случае аудиоконтента, для которого «более яркий» не означает просто более высокую плотность более четких пикселей. Это также означает уменьшение амплитуды, модификации огибающей, использование второй парадигмы громкости и, в худшем случае, искажение. Здравый смысл подсказывает, что, хотя в этих характеристиках как таковых нет ничего плохого, они не должны присутствовать практически во всех записях.

В конце концов, все дело в стиле. Пониженные значения коэффициента амплитуды придают звуку «компактность»; На своей странице MaxxBCL Waves описывают это как «сильный явный сигнал, сотрясающий дом».Он может подходить к вашему стилю музыки, а может и нет. Возможно, вы захотите остаться «мягким» намеренно. Однако, если вы занимаетесь тяжелой техно-музыкой, «компактная», вероятно, будет хорошей идеей. Точно так же каждая из двух описанных ранее парадигм громкости имеет очень характерный «вкус», и вы можете предпочесть одну или другую. Вы хотите, чтобы каждая громкая атака изменялась компрессором / лимитером? Во многих случаях это может быть хорошей идеей, но в других может оказаться катастрофой. Вы хотите уменьшить диапазон громкости вашей музыки, ничего не меняя? Тогда вам, вероятно, лучше использовать автоматизацию громкости, чем ограничитель, поскольку мы видели, что диапазон громкости естественным образом устойчив к определенному количеству ограничений.

В этом вопросе важно знать, что вы делаете и почему, в зависимости от того, какой звук вы хотите. Некоторые специальные инструменты также могут помочь, например, TT Dynamic Range Meter (см. Www.dynamicrangemetering.com/free-downloads — хотя он действительно измеряет пик-фактор сигнала, а не какой-либо «динамический диапазон»). И если вам все равно нравится компрессия, но вы боитесь, что мистер Боб Дилан не одобрит ваш звук, потому что он слишком «современный» и напоминает «статичный», не волнуйтесь.Он, наверное, не слушает.

В декабре 2010 года EBU выпустил документ Tech 3342 как часть рекомендации EBU R128 по громкости. Он дает очень точные рекомендации по измерению «диапазона громкости», дескриптора, который вполне может стать стандартом для измерения динамической изменчивости аудиоконтента, поэтому стоит потратить несколько минут, чтобы подробно изучить, что на самом деле является мерой «трехсекундное окно, стробированная изменчивость СКЗ по шкале K» аудиоконтента. Давайте разберемся с этим.

Длина окна анализа составляет три секунды, выборка производится каждую секунду. Значит, эта мера касается динамических явлений продолжительностью более трех секунд. Таким образом, с одной стороны, он не принимает во внимание перкуссионные звуки. С другой стороны, вариации громкости из-за структурных изменений могут быть нечетко видны: они могут быть замаскированы вариациями, происходящими на меньших масштабах. Это компромисс, выбранный EBU.

Вместо того, чтобы смотреть на значения RMS, протокол измерения смотрит на значения громкости, как определено в ITU-R BS 1770.Эта мера громкости проста: возьмите исходный файл, выполните его эквалайзер, а затем оцените его среднеквадратичное значение. В этом случае используется довольно простой фильтр, как показано на диаграмме. Может показаться удивительным, что ITU использует такую ​​базовую фильтрацию для определения разницы между среднеквадратичным значением и громкостью, но, как они выразились, «для типичного монофонического вещательного материала простая мера громкости на основе энергии столь же надежна по сравнению с более сложными мерами. которые могут включать в себя подробные модели восприятия ». ITU называет такой фильтр« K-взвешиванием »и дает« LKFS »в качестве единицы громкости.На этом этапе дескриптор, с которым мы имеем дело, представляет собой последовательность значений громкости, которая, кстати, соответствует «кратковременной громкости», как определено в EBU 3341. Хотя эти значения измеряются в LKFS, EBU предпочитает в этом случае используется аббревиатура LUFS (полная шкала единиц громкости).

Эта последовательность значений теперь стробирована. Есть два последовательных процесса стробирования. Первый, «абсолютный стробирование», исключает из измерения все значения ниже -70LKFS , и должен гарантировать, что тишина и фоновый шум не будут ошибочно включены в измерение.Второй процесс стробирования называется «относительным». После удаления очень тихих частей сигнала оценивается средняя громкость. Относительное стробирование теперь исключает все значения громкости более чем на 20 дБ ниже средней громкости. Если средняя громкость после абсолютного стробирования составляет, скажем, -15LKFS, то все значения ниже -35LKFS будут удалены из оценки диапазона громкости. Это относительное стробирование используется для удаления «нетипичных» частей сигнала. На данный момент дескриптор, с которым мы имеем дело, представляет собой последовательность значений «трехсекундное окно, стробированное среднеквадратичное значение, взвешенное по K».

А теперь самое важное: оценка диапазона громкости. Это выполняется путем вычисления изменчивости этой последовательности значений «трехсекундного окна, стробированных значений K-взвешенного RMS» с использованием статистического метода, описанного выше и проиллюстрированного диаграммами 3 и 4 в группе на предыдущей странице. Таким образом, мы действительно находимся в наличии «трехсекундного окна, стробированной изменчивости RMS, взвешенной по K», и единицей измерения для него является LU (Loudness Unit).

Если вы хотите узнать больше, вы можете найти EBU 3341 (мера громкости) по адресу http: // tech.ebu.ch/webdav/site/tech/shared/tech/tech4341.pdf. EBU 3342 (мера диапазона громкости) находится на http://tech.ebu.ch/docs/tech/tech4342.pdf. ITU BS 1770 (K-взвешивание) находится на сайте www.itu.int/rec/R-REC-BS.1770-0-200607-S/en. Он был пересмотрен в начале 2011 года, и ссылка на эту более свежую версию была www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1770-2-201103-I!!PDF-E. pdf.

Лимитеры уменьшают диапазоны громкости, не так ли? Ну да — и нет. На самом деле этот вопрос намного сложнее, чем кажется. Представьте, что у вас есть нормализованный аудиофайл: вы не можете добавить усиления без искажений.Использование ограничителя или компрессора для такого файла, тем не менее, приведет к увеличению его содержания: уровни RMS будут увеличены. Это добавляет динамический диапазон к среде: вместо 96 дБ в случае 16-битного файла он увеличится, возможно, до 100 или 105 дБ. На диаграмме справа этот дополнительный доступный динамический диапазон показан серым прямоугольником. С этой точки зрения лимитеры не уменьшают диапазон громкости, а увеличивают его.

Идея о том, что компрессор или лимитер может расширить доступный динамический диапазон, интересна, но не нова.Много десятилетий назад инженеры сжимали сигнал между микрофоном и записывающим устройством, чтобы увеличить доступный динамический диапазон носителя записи, чтобы его тогдашнее низкое отношение сигнал / шум не было проблемой.

На диаграмме показан RMS-анализ для трех файлов: исходного, нормализованного, но не ограниченного, и того же файла, ограниченного пороговым значением -6 дБ, затем -12 дБ. Давайте сосредоточимся на разнице между исходным файлом и файлом -6 дБ. Что касается низких уровней, файл -6 дБ получает 6 дБ RMS.Но высокие уровни ограничены, так что среднеквадратичное усиление для высоких уровней составляет всего 5 дБ. Это приводит к уменьшению среднеквадратичной изменчивости на 1 дБ. Давайте снизим ползунок порога до -12 дБ: низкие уровни увеличиваются еще на 6 дБ, а высокие уровни только 3 дБ. Это соответствует еще одному уменьшению среднеквадратичной изменчивости на 3 дБ, то есть уменьшению на 4 дБ в целом. Так что да, с этой точки зрения лимитеры действительно уменьшают диапазон громкости — в этом случае примерно на 4LU.

Однако потеря 1 дБ в изменчивости среднеквадратичного значения очень мала.Порог, ниже которого ограничение действительно начинает влиять на сигнал, зависит от обрабатываемой музыки. Вторая диаграмма показывает эволюцию изменчивости RMS на разных уровнях для трех музыкальных произведений. Обратите внимание, как произведение поп / рок музыки справа показывает изменчивость RMS, более устойчивую к ограничению, чем две другие пьесы, а именно опера и джаз. Это особенно актуально для более низких временных шкал: в этом конкретном случае порог ограничителя должен быть установлен как минимум на -6 дБ, чтобы получить заметное уменьшение изменчивости RMS.Это вполне может быть вызвано наличием в этой пьесе громкой, очень заметной части бас-барабана, что может указывать на то, что чем выше исходная изменчивость RMS, тем больше ее устойчивость к ограничению. Согласно этой точке зрения, непросто уменьшить высокую изменчивость. Эта первоначальная устойчивость к ограничению является еще одним аргументом в пользу утверждения, что ограничение не означает автоматически уменьшение диапазона громкости, особенно если исходный материал сильно изменчив.

Многие альбомы до цифровой эры были переработаны.В качестве примера остановимся на дискографии Cure. С 2004 года каждый из их альбомов до 1990 года подвергался ремастерингу и выпускался с дополнительным материалом. Диаграмма 1 из группы ниже сравнивает исходные издания с обновленными с точки зрения уровня RMS. Издания Deluxe действительно громче, чем оригинальные, и их уровень RMS, как правило, на 5 дБ выше, чем у оригинальных изданий. При этом они не такие громкие, как альбомы, выпущенные после 1995 года. Кстати, обратите внимание, что недавние альбомы Cure определенно стали жертвами войны за громкость: между Wish и Wild Mood Swings произошел внезапный скачок на 6 дБ, поэтому Альбомы Cure, как правило, менее громкие, чем нынешняя тенденция, демонстрируют такой же уровень, как и все остальные.

Давайте сосредоточимся на порнографии, первоначально выпущенной в 1982 году. При захвате формы волны на том же изображении сравнивается форма волны, соответствующая оригинальной и ремастированной версиям всего альбома. Очевидно, что ремастер 2005 года в значительной степени полагается на ограничители кирпичной стены с цифровым прогнозированием. Это хорошо или плохо? Мне лично нравится слушать оба издания. С более объективной точки зрения, давайте сосредоточимся на выделенной части сигнала, которая соответствует концу «Странного дня». В оригинальном издании, как раз перед короткой паузой, мы видим легкое декрещендо, за которым следует короткое крещендо.Читатели, знакомые с песней, согласятся, что эти вариации громкости очень важны для реального музыкального содержания (кульминация песни и затем пауза). В оригинальном издании эти вариации громкости используют первую парадигму громкости, как описано в основном тексте. Теперь посмотрите на ту же часть сигнала, которая соответствует обновленной версии. Изменения громкости теперь имеют совсем другую природу, и это может быть не такой уж хорошей идеей. На мой взгляд, это может быть основная опасность ремастеринга альбомов до цифровой эры: если не проявить осторожность, это увеличивает плотность сэмплов очень высокого уровня, снижает пик-фактор и превращает первую парадигму громкости во вторую. .

Записи таких знаменитых и уважаемых групп, как The Beatles или Pink Floyd, часто ремастируются по несколько раз, так что становится трудно найти эталонную версию для любого из их альбомов. Возьмем, к примеру, «Темную сторону луны». Диаграмма 3 показывает высокоуровневую плотность сэмплов для пяти его релизов: каждый из них мастерируется или ремастируется по-разному. Даже два издания с надписью «Original Master Recording» не одно и то же — вероятно, потому, что одно — виниловая пластинка, а другое — компакт-диск.

В контексте войны за громкость возникает один вопрос: уважают ли эти ремастеры оригинальное издание 1973 года? Диаграмма 3 на изображении ниже дает некоторые ответы. Издания 1981, 1989 и 1992 годов показывают общий объем ограничений, сопоставимый с тем, что можно было найти в записях 1973 года, согласно результатам, представленным в начале этой статьи. Издание 2003 года более проблематично: его ограничения сопоставимы с ограничениями альбома 1995 года. Что касается издания 2007 года, то здесь все не так однозначно: «Eclipse», похоже, был ограничен или, по крайней мере, сильно сжат, но другие треки показывают очень разумно высокую плотность сэмплов.Прослушивание каждого выпуска и просмотр форм сигналов улучшает анализ. Версии 1981, 1989 и 1992 годов звучат очень в духе «старого Pink Floyd», с исключительным использованием первой парадигмы громкости. Напротив, издание 2003 года в этом отношении неубедительно. Левый и правый передние каналы этого 5.1 remaster сильно ограничены, с частым использованием второй парадигмы громкости. Это звучит как Pink Floyd на FM-радио. Тот факт, что каналы объемного звучания не имеют этого недостатка, не компенсирует его.Что касается издания 2007 года, то это интересный случай, и, на мой взгляд, он был рассмотрен особенно грамотно. Например, «Eclipse» звучит громче — намного громче оригинала. С другой стороны, разве не должно быть «Eclipse» как финал альбома громким? Остальные песни ремастированы по-другому. Кроме того, даже для «Eclipse» вторая парадигма громкости не используется, хотя взгляд на форму волны показывает, что мы почти достигли предела между двумя парадигмами. Это говорит о том, что не все легендарные альбомы нарушаются правообладателями: издание Dark Side Of The Moon 2007 года демонстрирует настоящее уважение и понимание к музыке и вполне может оказаться успешным в достижении хорошего компромисса между оригинальным цветом альбома и более современным. вкусы.

Большая часть этой статьи основана на анализе корпуса записанной музыки, составленной из альбомов, которые достигли серьезного коммерческого и / или критического успеха. Основные ссылки: страница самых продаваемых альбомов Википедии (см. Http://en.wikipedia.org/wiki/Best_selling_albums), архивы диаграмм с сайта Billboard.com (www.billboard.com/#/charts/hot-100), и веб-сайт «лучших альбомов» (см. www.besteveralbums.com). Кроме того, если артист неоднократно упоминается на сайте besteveralbums.com, может быть включена полная дискография.Так обстоит дело, например, с Radiohead, Nirvana, Pink Floyd и U2. Каждый альбом из корпуса был проверен на предмет мастеринга, который реально мог быть выполнен во время первоначального выпуска — поэтому, если, например, запись 1970 года показывала очевидные ограничения цифровой кирпичной стены, она была отклонена как ремастер. Ссылки на песни из сборников указывались в соответствии с их первоначальной датой выпуска, а не датой компиляции, и проверялись на предмет очевидного ремастеринга.

Динамический диапазон — Чарли Сантмир

Здравствуйте,

Я Чарли Сантмайр.Я основал The Sound Environment 48 лет назад. Моя идея заключалась в том, чтобы предоставить любителям музыки высококачественные аудиосистемы. Сегодня я и мои коллеги делаем то же самое. Наши исследования стали намного более точными, и наша способность предоставлять действительно хорошие системы в широком диапазоне цен значительно улучшилась. Некоторые из моих коллег предложили мне рассказать свою историю и поделиться своими текущими мыслями о системах по мере развития событий.

Я постараюсь писать на разные темы как можно чаще.Я приветствую ваш вклад, мысли о том, что вы хотели бы охватить, и вопросы по мере нашего продвижения. Просто нажмите ЗДЕСЬ , чтобы написать мне письмо напрямую.

Динамический диапазон Что это значит?

The Sound Environment — это предприятие, стремящееся предоставить своим клиентам воспроизводимую музыку по лучшей цене, а не по самой низкой. Мы занимаемся этим более 47 лет.

Недавно я читал статью о сравнении виниловых и цифровых источников воспроизведения звука.Винил означает граммофонные пластинки, а цифровой означает любую цифровую запись музыки. Возможно, статья была не только информативной, но и развлекательной.

В нашем выставочном зале представлено как цифровое, так и аналоговое исходное оборудование в широком диапазоне цен и рабочих характеристик.

В наши дни, а, возможно, и в предыдущие дни, писатели часто сокращают путь, предполагая, что читатель знает значение слов или вещей, о которых идет речь. В этом предположении есть опасности, которые могут привести к недоразумениям и оставить сторонников одного средства массовой информации неубедительными, поскольку они используют свои собственные определения и опыт, а не пытаются понять друг друга.

В любом случае, виниловом или цифровом, мы говорим о последнем элементе цепочки. Фонографическая запись, являющаяся аналоговым носителем, компакт-диск или другой цифровой файл, являющийся оцифровкой исходного аналогового музыкального источника.

Исходная запись в любом случае могла быть аналоговой или цифровой. Проблема исходной записи и ее преобразования в окончательную аналоговую или цифровую запись часто бывает сложной и не обязательно такой, как вы думаете. Я использую слово «исходящий», чтобы отличать от слова «Учитель».”

Пару лет назад я присутствовал на выступлении человека, который планирует и делает высококачественные записи для своей собственной компании. Она довольно негативно относилась к так называемой Master Recording. Во многих современных записях есть многодорожечная цифровая запись музыки. Многие треки могут быть созданы не одновременно на одном и том же оборудовании, что вызывает множество проблем. Из этой многодорожечной записи получается так называемый Мастер. Это означает запись с двумя или более каналами, с которой сделана запись фонографа или цифровая запись.Дело в том, что так называемый Мастер — это микс, сделанный звукорежиссером, выражающим свои предпочтения, обычно слышимые на системе мониторинга, которая имеет свои собственные характеристики.

От «Master Recording» происходит термин «ремастеринг». Это означает, что представленная вам запись является новым миксом исходной многодорожечной записи. Он будет другим, но не обязательно лучше. Иногда «ремастеринг» выполняется на более новом, лучшем оборудовании, что может привести к лучшему звучанию, если инженер звукозаписи не вкладывает свое собственное восприятие в баланс каналов, эквализацию и т. Д.

Также верно, что в некоторых случаях исходная запись может быть аналоговой. Обычно это делается на очень хорошем, высокоскоростном многоканальном аналоговом магнитофоне. Вероятно, что микширование будет, если исходная запись состояла из более чем двух каналов или если инженер микширования хочет что-то «исправить». И, наконец, есть очень мало записей «прямо на диск», где двухканальная основная запись нарезается непосредственно на мастер-диск.

В некоторых случаях с классическими или джазовыми выступлениями записывается живое исполнение, а не студийное исполнение.В большинстве случаев эти записи будут иметь наибольшую музыкальную достоверность, будут наиболее музыкально интересными, потому что они, как правило, не являются «фиксированными». Они такие, как был сделан спектакль.

В рамках данной статьи мы будем исходить из того, что оригиналом является музыка, исполняемая на так называемых акустических инструментах.

(без усилителя, без электроники, без динамиков в самом музыкальном инструменте), другими словами, духовые и струнные инструменты, а также барабаны и клавишные инструменты, такие как фортепиано, клавесин и орган.

Давайте проясним некоторые определения

Динамический диапазон не имеет ничего общего с громкостью. Если звук громкий или тихий, он имеет определенный уровень звукового давления (SPL), обычно измеряемый в децибелах (дБ). Нулевой децибел имеет произвольно определенное значение с точки зрения давления воздуха 20 мкПаскалей. Это уровень, который приравнивается к самому тихому звуку, который может слышать большинство молодых людей.

Есть много мест, где вы можете найти числа и узнать, насколько громким может быть какой-то звук.Вы можете найти кривые равной громкости, которые интересны. Этот поиск в Google может привести вас ко многим из этих писем. Некоторые из них трудно понять, если у вас нет серьезного опыта. Я был бы рад обсудить все это. Просто отправьте мне электронное письмо.

Всегда необходимо учитывать расстояние от источника. В открытой среде уровень звукового давления снижается на 6 дБ при каждом увеличении расстояния от источника вдвое. Данный исходный носитель, доступный для конечного пользователя, может приспособить к определенному динамическому диапазону с условиями.Сама среда не имеет динамического диапазона. Он имеет минимальный уровень шума и максимальный рекордный уровень. Он может приспособиться к динамическому диапазону.

Динамический диапазон означает диапазон между тихим и громким звуком. Динамический диапазон трудно измерить, но для некоторых музыкальных произведений он может превышать 100 дБ, но для большинства музыкальных произведений он, вероятно, находится в диапазоне 60-70 дБ. Например, для пальцевых тарелок или щетки на пластике барабана уровень звукового давления может составлять всего 10-20 дБ, даже если вы находитесь достаточно близко. Этот звук можно услышать ниже уровня шума окружающей среды, потому что он отличается от случайного шума.

Если вы хотите воспроизвести звук на его исходном уровне, вам нужна только звуковая система, способная достичь этого уровня на расстоянии, на котором вы можете быть от звука. Например, концертный рояль на расстоянии около 20 футов может превышать пиковый уровень 90 дБ. Фортепиано — ударный инструмент. Молоток ударяет по струне, в отличие от клавесина, где струна перебирается. При мягком воспроизведении уровень звукового давления может быть всего 20 дБ на расстоянии 20 футов. Эти числа предназначены для иллюстрации, а не абсолютного значения.Вы можете найти записи, в которых указаны более точные значения, чем я использую здесь.

Большая часть современной популярной музыки, предназначенной для воспроизведения в сложных условиях, например в автомобиле, очень сжата. По замыслу производителей, он должен быть громким, поэтому он воспроизводится с максимальной производительностью цифрового носителя, а динамический диапазон может составлять всего 10 дБ или около того. См. Loudness war .

Динамический диапазон связан с тем, насколько тихо и громко может играть инструмент или группа инструментов при прослушивании на определенном расстоянии.Исходная среда имеет отношение сигнал / шум, а не динамический диапазон. Максимальная непрерывная громкость звука в SPL составляет около 194 дБ или одну атмосферу на уровне моря. Для первой полуволны, полуцикла давления, может быть любое значение. Это взрыв. Отрицательный полупериод не может быть больше вакуума. Отсюда и число 194 дБ.

Максимальный уровень записи для компакт-диска составляет 96 дБ (2 16 ) выше нулевого уровня. Таким образом, 16 / 44,1 — 16 бит с дискретизацией 44,1 тысячи раз в секунду.

Некоторые цифровые источники имеют более низкую скорость передачи данных и более низкую частоту дискретизации, поэтому возможности динамического диапазона ниже. Для действительно точного воспроизведения музыки этих методов записи, таких как MP3 и цифровое радио, будет недостаточно, но мы можем извлечь из этого кое-что из музыки.

20- или 24-битные записи увеличивают управляемый динамический диапазон, но по существу несущественны для большинства музыкальных произведений. Это дает звукоинженеру возможность записи на несколько более низком уровне, чтобы они не достигли максимального уровня записи.Основным преимуществом так называемых методов записи высокой четкости является более высокая частота дискретизации, что приближает их к аналоговой записи.

Для аналогового сигнала минимального уровня практически нет, но минимальный уровень шума есть. Итак, нас интересует так называемое отношение сигнал / шум. Фонографическая пластинка в лучшем случае может иметь значительно более низкий динамический диапазон, чем компакт-диск. Я не уверен, каковы цифры, но если нет действительно глубоких басовых нот, они могут быть в диапазоне 60 дБ.

Еще одним соображением является минимальный уровень шума остальной части системы воспроизведения и акустической среды, в которой воспроизводится музыка. Часто он бывает на удивление высоким.

Еще один фактор при сравнении аналогового и цифрового — это типы искажений, к которым каждый из них более склонен. Многие аналоговые устройства сначала создают гармонические искажения. Другими словами, если частота в записи, скажем, 130,81 Гц (на октаву ниже средней C), то искажение 2-й гармоники приведет к возникновению некоторого сигнала на 261.63 Гц, (средний C). Этот тип искажения вероятен в аналоговой системе, будь то запись фонографа или динамик. Этот тип искажения обычно не вызывает неприятных ощущений, поскольку он гармонически связан с сигналом, но окрашивает звук. Обычно от этого большинству из нас кажется «теплее». Некоторые предпочитают более теплый звук.

Современные методы записи могут подчеркивать верхний средний диапазон (от 2000 Гц до 4000 Гц или немного больше). Обычно это происходит из-за близости микрофона к инструменту.Некоторое воспроизводящее оборудование может усилить этот акцент и произвести дополнительные негармонические искажения в этом диапазоне.

Некоторая ламповая электроника уменьшит этот акцент и будет более приятной, хотя музыкальные детали будут потеряны.

Итак, где мы? Вам решать, хотите ли вы слушать пластинки фонографа или цифровой источник. Некоторые онлайн-источники в цифровом формате предлагают качество компакт-дисков и большое количество музыки при относительно низкой абонентской плате. Tidal — один из таких. Мы можем продемонстрировать все эти варианты, чтобы вы могли выбирать.

Тип музыки, которую вы слушаете, также повлияет на ваши предпочтения при воспроизведении оборудования. Все это может показаться очень сложным, но это не обязательно. Просто загляните в The Sound Environment. Вы можете слушать аналоговые и цифровые источники в очень широком диапазоне цен. Вы можете принести свои собственные записи. Для наилучшего обслуживания, особенно если вы приносите записи, пожалуйста, назначьте встречу.

Если в настоящее время у вас дома есть проигрыватель пластинок и проигрыватель компакт-дисков, и вы предпочитаете проигрыватель пластинок, вы должны иметь в виду, что вы предпочитаете конкретный проигрыватель пластинок конкретному проигрывателю компакт-дисков в контексте всей системы и музыки, которую вы обычно играете. .Это ничего не доказывает о Vinyl VS. Цифровой.

Заходите, мы продемонстрируем, на что способен каждый.

Вы можете написать мне на адрес [email protected]

Динамический диапазон — Чарли Сантмир 2018-06-082019-11-18 https://www.soundenvironment.com/wp-content/uploads/2018/02/4k-website-logo.png Звуковая среда https://www.soundenvironment. com / wp-content / uploads / 2018/06 / dynamic-range.jpg200px200px

Сжатие динамического диапазона и шум | Инновации в технологии дополненного прослушивания

Этот пост сопровождает нашу презентацию «Сжатие динамического диапазона звуковых смесей» на собрании Американского акустического общества 2020 года и нашу статью «Моделирование эффектов сжатия динамического диапазона на сигналы в шуме» в Журнале Американского акустического общества (PDF ).

Практически каждый современный слуховой аппарат использует алгоритм, называемый сжатием динамического диапазона (DRC), который автоматически регулирует усиление слухового аппарата, чтобы сделать тихие звуки громче, а громкие — тише. Хотя компрессия — одна из важнейших характеристик слуховых аппаратов, она также может быть одной из причин того, что они плохо работают в шумной обстановке. Исследователи слуха давно знают, что когда DRC применяется к нескольким звукам одновременно, это может вызвать искажение и ухудшить фоновый шум.Наша исследовательская группа применяет теорию обработки сигналов, чтобы понять, почему сжатие плохо работает в условиях шума, и изучает новые стратегии управления громкостью в шумной среде.

Что такое сжатие динамического диапазона?

Динамический диапазон — это разница в уровне самых громких и самых тихих звуков, которые слышит человек. Люди с потерей слуха имеют меньший динамический диапазон по сравнению с людьми с нормальным слухом; им нужно усиление, чтобы слышать тихие звуки, но их уши могут улавливать громкие звуки самостоятельно.Если слуховой аппарат усиливает каждый звук на одинаковую величину, уже громкие звуки могут стать болезненными. Чтобы убедиться, что тихие звуки, такие как тихая речь, достаточно усилены для понимания, но громкие звуки, такие как автомобильные гудки, не являются болезненными или опасными, слуховые аппараты регулируют свое усиление в зависимости от уровня звука. Когда звуки тихие, усиление увеличивается, а когда звуки громкие, усиление падает. Таким образом, динамический диапазон выходного сигнала слухового аппарата меньше, чем динамический диапазон звуков, поступающих в микрофон.

Функция сжатия связывает громкость входа с громкостью выхода.

Величина усиления, применяемого алгоритмом DRC, определяется кривой сжатия. Чем пологее кривая, тем сильнее сужается динамический диапазон звука. Например, слуховой аппарат может использовать коэффициент сжатия 3: 1, что означает, что выходной уровень увеличивается на 1 дБ на каждые 3 дБ увеличения уровня входного сигнала. В большинстве современных слуховых аппаратов используется так называемая компрессия с широким динамическим диапазоном (WDRC), что означает, что они сжимают широкий диапазон уровней звука, а не просто ограничивают громкие звуки, как компрессоры, используемые при производстве музыки.Форма кривой программируется производителем слухового аппарата или аудиологом и может отличаться для разных пользователей или режимов прослушивания. Аудиолог также может настроить, насколько быстро слуховые аппараты реагируют на изменения громкости. Обычно слуховой аппарат снижает усиление всего за несколько миллисекунд после громкого звука, но будет увеличивать усиление постепенно, когда звуки станут тише.

Сжатие динамического диапазона и шум

Поскольку DRC является нелинейным алгоритмом — он обрабатывает сигнал по-разному в зависимости от уровня сигнала — он может вызвать искажение при использовании сразу нескольких звуков.Нелинейные искажения от DRC звучат круто в песнях Daft Punk, но они не приветствуются для пользователей слуховых аппаратов, пытающихся поговорить в переполненном ресторане. Шумная среда с несколькими источниками звука — одна из самых трудных для людей с потерей слуха, но слуховые аппараты редко помогают при громком шуме. На самом деле, иногда они могут только ухудшить положение. Есть свидетельства того, что DRC является частью проблемы.

Внезапный громкий звук может снизить усиление тихого звука, вызывая искажения.

Сжатие вызывает искажение, поскольку оно применяет одну и ту же обработку к нескольким звукам в смеси. Предположим, пользователь слухового аппарата ведет тихую беседу и на заднем плане хлопает дверь. Чтобы защитить слушателя от внезапного громкого звука, слуховые аппараты быстро уменьшат коэффициент усиления. Но такое же усиление применяется к каждому звуку, проходящему через слуховой аппарат, поэтому голос говорящего также станет тише. Если таких фоновых звуков много, усиление будет колебаться, вызывая искажение звука, который слушатель хочет слышать.

Сжатие также может ухудшить шум. Часто пользователи слуховых аппаратов жалуются на то, что они усиливают фоновый шум. Многие слуховые аппараты включают алгоритмы шумоподавления, предназначенные для блокирования шума низкого уровня, например, кондиционеров, и сохранения звуков высокого уровня, таких как речь. Но алгоритмы DRC имеют противоположный эффект: они усиливают тихие звуки, в том числе звуки, которые слушатель может не захотеть слышать. Высококачественные слуховые аппараты пытаются компенсировать этот эффект, определяя, слушает ли пользователь речь или шум, и переключаясь между настройками обработки, но этот подход не работает, когда есть и речь, и шум одновременно.

Слушатели знали об этих проблемах на протяжении десятилетий и задокументировали их в лабораторных экспериментах с настоящими слуховыми аппаратами. Исследования людей с потерей слуха показали, что DRC может улучшить качество прослушивания в тихой обстановке, но искажения могут затруднить понимание речи в шуме. Однако математики и инженеры не уделяли этой проблеме особого внимания. Методы исследования обработки сигналов могут помочь нам понять, почему сжатие плохо работает в условиях шума, и разработать новые подходы.

Недавно мы разработали математическую модель воздействия DRC на смеси нескольких звуков. Делая некоторые упрощающие предположения о сигналах, мы можем количественно оценить влияние, которое система DRC оказывает на каждый отдельный звук, и проанализировать, как звуки в смеси влияют друг на друга. Используя эту схему, мы можем доказать теоремы, объясняющие три эффекта, которые исследователи слуха задокументировали экспериментально:

  1. Когда сжатие применяется к нескольким звукам одновременно, сигналы искажают друг друга и становятся отрицательно коррелированными, что означает, что по мере того, как один становится громче, другой становится тише и наоборот.
  2. Когда несколько звуков сжимаются вместе, их динамический диапазон не уменьшается настолько, насколько они были бы по отдельности, а это означает, что шум делает сжатие менее эффективным. Этот эффект наиболее силен, когда шум громче, чем интересующий сигнал.
  3. Когда динамический сигнал, такой как речь, смешивается с устойчивым фоновым шумом, сжатие всегда ухудшает отношение сигнал / шум. Этот эффект наиболее силен, когда интересующий сигнал громче шума.

Все три результата вытекают из того факта, что функция, связывающая уровень входного звука с уровнем выходного звука, является вогнутой.Это означает, что любая система, в которой выходная громкость увеличивается медленнее, чем входная громкость, то есть любая система, которая сжимает динамический диапазон, уязвима для этих эффектов искажения. Сила искажения зависит от силы сжатия и свойств сигналов.

Новый взгляд на сжатие динамического диапазона

Согласно нашему анализу, искажение неизбежно, когда мы применяем сжатие более чем к одному звуку. Чтобы нелинейные алгоритмы лучше работали в шумной среде, нам нужно изменить способ обработки слуховых аппаратов множественными звуками.Сегодняшние небольшие слуховые аппараты с низким энергопотреблением выполняют сжатие всех звуков вместе, возможно, с некоторой обработкой шумоподавления до или после этапа сжатия. Более мощные устройства, использующие множество микрофонов, такие как системы прослушивания, которые мы изучаем в лаборатории расширенного прослушивания в Иллинойсе, могут выполнять более сложную нелинейную обработку, которая сокращает динамический диапазон без искажения или усиления нежелательного шума.

Система сжатия с несколькими источниками применяет отдельную обработку DRC к каждому звуку, создавая меньше искажений.

Один из подходов заключается в применении отдельной обработки DRC к каждому источнику звука. Художники микширования делают то же самое при создании музыки, выбирая различные настройки сжатия для разных инструментов или вокала, а затем комбинируя обработанные звуки. В статье 2017 года мы предложили систему, которая использует формирование луча микрофонной решетки для раздельного сжатия звуков, поступающих с разных направлений. Даже с несколькими дополнительными микрофонами и несовершенным разделением система воспроизводила звук с меньшими искажениями и лучшим соотношением сигнал / шум по сравнению с обычным сжатием.С более крупными носимыми устройствами, удаленными микрофонами и улучшенными алгоритмами сжатие из нескольких источников может работать еще лучше.

Ранние слуховые аппараты использовали аналоговые схемы для отслеживания уровней сигнала во времени и изменения коэффициента усиления усилителя; сегодня большинство цифровых алгоритмов DRC пытаются имитировать эти аналоговые системы. Но с современными возможностями цифровой обработки сигналов нам не нужно ограничиваться обычными алгоритмами сжатия для управления динамическим диапазоном. У исследователей в области обработки сигналов есть возможность предложить новые творческие и амбициозные стратегии обработки сигналов слуховых аппаратов в шумной среде.Но нам понадобится помощь ученых-слушателей, чтобы понять, как люди слышат в сложной акустической среде: какой динамический диапазон должен иметь разные типы звука при разных уровнях фонового шума? Что лучше сжимать звуки по отдельности, вместе или и то, и другое? И как мы можем измерить, насколько хорошо работают наши алгоритмы?

Наша команда планирует продолжить изучение сжатия динамического диапазона. Мы надеемся, что с помощью математических моделей мы сможем найти новые подходы к управлению динамическим диапазоном в сложных звуковых смесях.Улучшая DRC, мы можем улучшить работу слуховых аппаратов в шумной среде, где люди с потерей слуха больше всего нуждаются в помощи.

alexxlab

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *