Объемный звук схема. Принципы имитации объемного звучания

15.03.2019

Surround - объемный звук

С тех пор, как существует звукозапись, и слушатели, и конструкторы аппаратуры испытывают неистребимое желание сделать звук, записанный и затем воспроизведенный, в максимальной степени похожим на оригинал. Чего только не делают разработчики аудиотехники для того, чтобы приблизиться к идеалу: сражаются с шумом, минимизируют искажения, расширяют частотный и динамический диапазоны элементов тракта записи-передачи-воспроизведения звукового сигнала. А кроме всего прочего они стремятся заставить звуковое поле, создаваемое акустическими системами, передавать слушателю информацию о направлении на источники звуков и об акустических свойствах того помещения, в котором производилась запись.

На первом этапе своего развития звукозапись и радиовещание были монофоническими. Звук, раздающийся из динамика, до неузнаваемости отличался от живого звука концертного зала: искаженный баланс между различными музыкальными инструментами, искаженный тембр и, главное, полностью утраченная пространственность. Это очень серьезный недостаток. Ведь слуховой анализатор человека обладает способностью к пеленгации источников звука, что помогает нам ориентироваться в пространстве. Если же все звуки исходят из одной точки - это кажется противоестественным.

Немного истории

Первые эксперименты по получению объемного звучания (с помощью трех - семи каналов) проводились еще в 30-е годы прошлого века. Сравнительные испытания многоканальных и монофонических систем дали удивительные результаты. Было установлено, что при воспроизведении даже 2-х раздельных каналов субъективное качество звука резко улучшается. А самое поразительное заключается в том, что эксперты предпочитали стереозвук даже в тех случаях, когда им предъявляли объективно более качественные, но монофонические фонограммы. Решающим преимуществом стала возможность пространственной локализации кажущихся источников звука (рис. 1.33).

Рис. 1.33. Распределение кажущихся источников звука на стереопанораме:

На начальном этапе разработчики решили ограничиться двумя каналами. Это, конечно, в первую очередь было обусловлено небогатыми возможностями аппаратуры тех времен: грампластинки реально позволяли разместить только два полноценных канала.

Стереозвук дает некоторую прозрачность звучания: партии отдельных инструментов становятся более различимыми на фоне оркестра. Кроме того, стереосистема способна воспроизвести подобие звуковой атмосферы помещения, в котором выполнялась запись. Началась эра 2-канальных стереофонических систем. Постепенно появились стереофонические грампластинки и стереопроигрыватели, стереомагнитофоны, стереофоническое радиовещание.

В свою очередь стереозвучание имеет существенный недостаток. Стереопанорама ограничена углом между направлениями на громкоговорители и получается плоской. Такое звучание лишено естественности реального звукового поля, когда человек способен воспринимать реальные источники практически со всех направлений и оценивать расстояние до источников звука. Создающееся у слушателя ощущение объемного звучания могло бы существенно обогатить тембры музыкальных инструментов и голосов певцов. При этом можно было бы имитировать реверберационный процесс, свойственный помещению, в котором произведена запись.

Одной из первых попыток преодоления недостатков, присущих стереофоническим системам, стала квадрофония. Для воспроизведения квадрофонических фонограмм используются 4 акустические системы (рис. 1.34).

Первые бытовые квадросистемы появились в начале 70-годов прошлого века. Казалось, что их ждет славное будущее. Однако этого не произошло. Причин тому есть несколько. Одна из них традиционна для многих новинок техники и заключается в том, что производители квадрофонической аппаратуры так и не смогли прийти к единому стандарту записи и воспроизведения 4-канального звука. Свою роль сыграли несовершенство и большая стоимость приборов четырехканальной записи-воспроизведения. Но главное заключается в другом: с переходом от "стерео" к "квадро" в те времена новое качество звука не возникло. Квадрофонические системы, так же как и стереофонические, не обеспечивали полной передачи свойств реального звукового поля. Недостатков было только два, но они существенны:

при квадрофонии 70-годов прошлого века не получалась круговая стереопанорама - слушатель ощущал обычную стереопанораму перед собой и еще одну стереопанораму сзади себя;
все мнимые источники звука располагались в одной плоскости на линиях между динамиками, поэтому объемного трехмерного звучания по-прежнему не было.

Следует заметить, что эти недостатки обусловлены не столько ограниченными возможностями четырехканального воспроизведения звука, сколько трудностями реализации панорамирования кажущихся источников звука при записи. При подготовке фонограмм для современных многоканальных систем этот фактор учитывается. Важную роль при этом играет именно компьютер, способный справиться с моделированием объемных реверберационных процессов и предоставляющий звукорежиссеру удобные регуляторы для перемещения источников звука по круговой панораме.

Рис. 1.34. Распределение кажущихся источников звука на квадропанораме:

Но в те далекие времена квадрофония отступила, а стереофония победила и стала развиваться по линии миниатюризации аппаратуры, улучшения ее технических и потребительских качеств, перехода к новым носителям - компакт-кассетам и компакт-дискам. Перед звукозаписывающими компаниями и производителями аудиоаппаратуры все еще существовал широчайший фронт работ и емкий рынок сбыта. В который раз они предлагали слушателям смену фонотек. Накопленный на грампластинках за предшествующие десятилетия музыкальный материал, обновленный и адаптированный сначала под монофонические катушечные магнитофоны, затем реализованный на компакт-кассетах в стереоформате, в очередной раз предлагался меломанам, но теперь уже на лазерных дисках.

Однако в самом конце XX века стереофония, кажется, все-таки начала сдавать свои позиции. Цифровые технологии записи звука, а также емкие, удобные и дешевые носители сняли ранее существовавшую проблему хранения многоканальных фонограмм большой длительности. Кроме того, в звуке, передающем акустические свойства окружающего пространства, появилась острая потребность. Виртуальные графические миры компьютерных игр становятся все более сложными и похожими на реальность, а значит, требуют и адекватного звукового оформления. Кинематограф, переживший кризис в состязании с телевидением, возродился в виде домашних кинотеатров и кинозалов нового формата, основное отличие которых от предшественников кроется не в изображении, а в принципиально новом звуке (хотя и качество изображения тоже улучшилось, благодаря DVD и современным проекционным средствам).

Новая эра в звукозаписи началась в результате исследований, выполненных инженерами Dolby Laboratories (http://dolby.com). Это был принципиально новый подход к передаче многоканального звука. Отличие от традиционного способа заключалось, прежде всего, в том, что для хранения аудиосигналов двух дополнительных каналов использовалось матричное кодирование, т. е. их подмешивание к основным двум каналам. Изменился и способ размещения акустических систем - дополнительно к традиционному для квадрофонии расположению акустических систем по углам помещения добавлен центральный канал, размещенный между правым и левым фронтальными каналами, чтобы сохранить широкую стереобазу для зрителей, сидящих на боковых местах, а за спинами размещен канал эффектов (Surround). Так появилась система нового кинотеатрального звучания Dolby ® Stereo.

Как вы уже знаете, этот четырехканальный формат является матричным форматом, при котором звук, предназначенный для каждого из четырех каналов, кодируется и записывается на два канала, а при воспроизведении декодируется вновь в четыре канала: левый, центральный, правый и задний. Сигнал заднего канала, как правило, направляется на две тыловые акустические системы одновременно. Впервые формат Dolby ® Stereo был применен в фильме "Star Wars" в 1975 году.

Используемая технология кодирования не позволяла обеспечить разделение между каналами более 8 дБ. Позже она была изменена, и разделение между каналами достигло 15 дБ, но частотный диапазон заднего канала остался ограниченным в диапазоне 100 Гц - 7 кГц.

Рис. 1.35. Размещение излучателей звука в системе Dolby ® Stereo:

Системой воспроизведения совершенно нового качества, совместимой со старым стандартом звукозаписи, стала система Dolby ® Pro Logic ®. В ней был применен декодер, реализующий пространственную фокусировку звуковых образов - технологию, используемую для снижения взаимного проникновения сигналов одного канала в другой. В Dolby ® Pro Logic ® также появилась возможность создавать задержку звукового сигнала в тыловом канале. Тем самым было обеспечено согласование геометрических и акустических характеристик конкретного помещения с характеристиками "эталонного кинозала", под который при производстве сводился мультитрековый звук. Очень важно, что к настоящему времени накоплено огромное количество музыки, фильмов, телепрограмм, записанных на различных современных носителях со звуком в формате Dolby ® Pro Logic ®. А потом наступила эпоха цифрового кодирования и цифровой записи многоканального объемного звука, и появилась система Dolby ® Digital. Для кодирования цифрового звука в ней используется алгоритм, называемый АС-3 (Dolby"s third generation audio coding algorithm - алгоритм кодирования звука Dolby третьего поколения). АС-3 представляет собой алгоритм компрессии многоканального звука (количество независимых каналов от 1 до 6) с потерями. Достижения в области психоакустики, учитывающие особенности человеческого слухового аппарата, используются в нем для принятия решения о том, какую часть информации в аудиосигнале можно отбросить, чтобы это было не очень заметно для человеческого уха. При кодировании алгоритмом АС-3 могут использоваться битрейты от 32 Кбит/с (для одного монофонического канала с минимальным качеством) до 640 Кбит/с (для каналов 5.1 с минимальными потерями качества). Типичный битрейт для 5.1 записей составляет 385 Кбит/с.

Кодер Dolby® Digital поддерживает частоты дискретизации цифровых данных 32 кГц, 44,1 кГц и 48 кГц при разрядности 16, 18 или 20 бит. Предусмотрена возможность увеличения разрядности до 24 бит. Используется сжатие данных с потерями, однако качество звука все равно получается выше, чем у предшествующих аналоговых систем. Dolby® Digital может обеспечить кодирование до 6 каналов в формате 5.1, где 5 - это каналы с полным частотным диапазоном (2020 000 Гц) и.1 - канал низкочастотных (менее 120 Гц) эффектов (LFE).

Объемность акустических сцен, более четкая детализация, естественность перемещений источников звука из фронтальной области в тыловую, стереофоническое звучание в тыловой области - все это обеспечило успех системы.

Следующий шаг эволюции систем объемного звучания - система Dolby ® Digital EX, которую можно считать надстройкой над Dolby ® Digital. В Dolby ® Digital EX, как и в Dolby ® Digital физически может кодироваться до 6 независимых каналов (5.1), однако, за счет использования матричного кодирования, в левый и в правый тыловые каналы подмешивается информация еще одного или двух surround-каналов. Благодаря такому решению сохранена совместимость с оборудованием Dolby ® Digital, и в то же время, за счет введения дополнительных surround-каналов (6.1, 7.1) на оборудовании Dolby ® Digital EX достигается еще более высокая точность локализации звуковых источников в пространстве.

Конечно, многоканальным звуком занимается не только Dolby Lab. Например, фирма RSP Technologies создала матричную систему Circle Surround, которая имеет тыловой канал с полным диапазоном частот и тем самым оказывается наилучшим образом приспособленной для воспроизведения музыки. Новая версия Circle Surround может также работать в шести -канальном режиме с раздельными тыловыми каналами и каналом сабвуфера (сверхнизкочастотной акустической системы).

В настоящее время можно говорить о распространении нового потребительского формата: DVD-audio. Звуковые данные на этом носителе могут храниться с использованием различных алгоритмов кодирования, включая Dolby ® Digital. Однако в связи с большой емкостью носителя DVD (4,7 Гб на однослойном диске) необходимость сжатия звуковой информации с потерями отпадает. На DVD-audio можно хранить многоканальные записи в формате вплоть до 24 бит/96 кГц без какого либо сжатия и, соответственно, без каких-либо потерь.

Формат 5.1

Обозначение "5.1" указывает на количество каналов, но не несет в себе информации о каком-либо определенном способе кодирования многоканального звука. Используется пять каналов с полным частотным диапазоном (левый передний, центральный, правый передний, левый задний и правый задний), а также один низкочастотный канал (с диапазоном от 3 до 120 Гц), подключаемый к сабвуферу (рис. 1.36).

В этой системе 5.1 формируется круговая стереопанорама. Поскольку на сверхнизких частотах наш слух практически лишен способности определять направление на источник звука, место расположения сабвуфера не имеет существенного значения.

Сабвуфер применяется и в обычных стереосистемах. В его канал подается низкочастотная часть спектра суммарного сигнала стереоканалов, в результате чего обеспечивается гарантированное воспроизведение басовых звуков. Однако в системе 5.1 канал низкочастотных эффектов играет особую роль. Его стоит рассматривать не как низкочастотную компоненту многополосной акустической системы, а именно как независимый канал низкочастотных эффектов.

При записи на магнитофон для большинства систем 5.1 принят следующий порядок каналов (начиная с первой дорожки): левый передний, центральный, правый передний, левый задний, правый задний и низкочастотный каналы. В ряде случаев (например, в многоканальных звуковых картах) предусмотрен и другой порядок: левый передний, правый передний, левый задний, правый задний, центральный, низкочастотный.

По мнению специалистов, формат 5.1 является наиболее перспективным, поскольку поддерживается основными разработчиками. Важно, что имеются подходящие носители (DVD).

Рис. 1.36. Размещение излучателей звука в системе 5.1:

И хотя пока не принят единый стандарт и одновременно существует несколько систем кодирования для 5.1, однако фиаско "первобытной" квадрофонии вряд ли повторится, даже если "выживет" не одна, а несколько различных систем кодирования. Принципиальное отличие формата 5.1 от квадрофонии тридцатилетней давности заключается в том, что в данном случае аудиосигнал имеет цифровую форму, поэтому создание универсального декодера, способного работать со звуком, закодированным различными системами, не вызовет особых трудностей и не приведет к заметному удорожанию аппаратуры.

В успехе формата 5.1 заинтересованы производители аудио-, видеоаппаратуры, компьютеров, компьютерных комплектующих и программ. К нему с интересом относятся потребители: зрители, слушатели, геймеры. Звукорежиссеры и музыканты находят в этом формате новые выразительные средства для реализации творческих замыслов и усиления влияния на наши эмоции. Формат действительно придает воспроизводимому звуку новое качество: слушатель окружен им. Правда, виртуальный звуковой мир и в этом случае не дотягивает до реального. В синтезированном звуковом пространстве источник звука может находиться справа, слева, спереди, сзади, перемещаясь в этих "координатах". А у настоящего звукового пространства, кроме того, есть еще "верх" и "низ".

Особенности оборудования студии формата 5.1

Сейчас мы поговорим только об основных элементах звуковой студии, к которым в первую очередь следует отнести:

микшер;
устройство многоканальной записи;
приборы обработки и эффектов;
мониторы для прослушивания фонограмм.

Основным инструментом сведения многоканального звука является микшер, снабженный средствами панорамирования.

В стереоформате для размещения кажущегося источника звука в определенном месте предназначен регулятор панорамы. Им вы устанавливаете относительные уровни звуковых сигналов, которые подаются в каждый из двух каналов, и тем самым определяете положение источника звука между двумя акустическими системами. При работе с многоканальным звуком вам надо управлять аналогичным процессом в 5 каналах, кроме того, конечно, требуется также регулировать и канал сабвуфера. Поэтому при использовании традиционного микшера для позиционирования одного источника звука необходимо манипулировать несколькими регуляторами. Заметим, что состояние фейдеров, управляющих уровнем сигнала, и регуляторов панорамы в каждом канале трудно сопоставить с положением кажущегося источника звука на круговой панораме. Еще сложнее заставить звук перемещаться по заданной траектории. Это возможно только в микшерах с автоматизацией. В качестве регулятора круговой панорамы в микшере, предназначенном для работы с многоканальным звуком, очень подошел бы джойстик.

Ко всему прочему, микшер, способный работать с объемным звуком, должен иметь не один, а несколько выходов (по числу каналов). Например, в системе 5.1 у микшера должно быть не менее 6 выходов. Оборудование стереофонической студии звукозаписи стоит недешево, а уж о цене студии формата 5.1 и подумать страшно!

Дороговаты также и устройства записи многоканального звука. Они должны иметь 6 и более каналов. Причем крайне желательно, чтобы звук в них представлялся не менее чем 24 разрядами.

Микшеры и цифровые магнитофоны - устройства, многоканальные по своей сути. Поэтому некоторые из моделей, предназначенных для работы со стереозвуком, можно с большим или меньшим удобством применять и в студии формата 5.1. А вот с эквалайзерами, приборами динамической обработки и особенно эффектами дело обстоит сложнее. Конечно, можно обеспечить 6 каналов, собрав "батарею" из 3-х двухканальных приборов. Однако об осмысленной регулировке параметров в этом случае говорить не приходится. Вообразите себе, например, трудности создания в многоканальной системе реалистичной реверберации.

Достойной заменой цифровым магнитофонам и аппаратным микшерам могут служить программные мультитрековые студии и имеющиеся в составе некоторых из них виртуальные микшеры, позволяющие управлять панорамированием с помощью обычной мыши. Удобный в работе и наглядно отображающий положение источника звука на круговой панораме surround-микшер имеется в программе Cubase SX (см. главу 5).

Не всякий владелец домашней студии стереофонического формата может позволить себе иметь мониторную акустическую стереосистему. Однако в случае сведения в стерео приемлемым выходом из положения являются относительно дешевые мониторные наушники. А в формате 5.1 стереонаушники вас не спасут. Без пяти широкополосных акустических систем (а также сабвуфера) не обойтись.

При работе со стереозвуком основными требованиями к мониторам являются: равномерность их частотной характеристики, низкий уровень искажений и полная идентичность двух акустических систем.

Аналогичные требования можно было бы предъявить и к пяти широкополосным мониторам формата 5.1. Они вроде бы тоже должны быть абсолютно одинаковыми. Но в таком случае сведение в круговую панораму вы будете осуществлять в условиях, отличающихся от тех, в которых будут находиться многие слушатели вашей композиции. Дело в том, что у большинства владельцев домашних театров тыловые акустические системы не только по мощности слабее фронтальных, но, кроме того, они могут иметь конструктивное исполнение другого типа. В свою очередь, центральная акустическая система зачастую отличается от крайних передних. Получается, что впечатление слушателя может не совпадать с тем, которое замышляли вы.

Заметим, что подобная проблема существует и при работе со стереозвуком: сведение осуществляется на студийных мониторах, а воспроизведение - на самой различной акустике, начиная от высококачественных колонок и кончая динамиками переносного кассетного магнитофона. Правда, в процессе мастеринга фонограммы должны проходить тест на совместимость с оборудованием низкого качества, да и одной из основных задач этого этапа является адаптация записи к конкретному типу носителя.

Что касается канала низкочастотных эффектов системы 5.1, то при сведении музыкальной композиции сабвуфер вообще не должен использоваться, если по художественному замыслу в музыкальной композиции не присутствует эффект типа взрыва, выстрела из пушки и т. п.

Но опыт прошлых лет, когда царствовал формат CD-audio, показывает, что всякие официальные рекомендации по использованию формата выполняются только на первых порах. Постепенно звукорежиссеры и продюсеры в своих творческих замыслах становятся смелее и пересекают ту черту, которая называется "официальными рекомендациями". Как нам подсказывает интуиция, в конечном итоге низкочастотный канал системы 5.1 будет использоваться "на полную катушку": там, где это нужно и где не нужно. Например, сама собою напрашивается идея задействовать низкочастотный канал для усиления ударов басового барабана в танцевальной музыке.

Как организовать мониторинг при сведении многоканального звука? Об этом идут споры. Однако большинство специалистов рекомендует использовать одинаковую акустику, не внося поправку на несовершенство домашних систем. Мониторы следует располагать на равном расстоянии от слушателя, в частности, три фронтальных монитора должны образовать дугу, а не прямую линию. Если это невозможно, то следует соответственно снизить громкость центрального монитора.

А как в идеале должны располагаться мониторы системы 5.1? Представьте себе, что вы находитесь в центре системы 5.1. Центральный монитор должен располагаться перед вами. Воображаемая линия между вами и центральным монитором является осью, относительно которой будет определяться расположение остальных мониторов. Левый и правый фронтальные каналы располагаются под углами -30° и 30° относительно этой оси. Таким образом, угол "левый монитор-вы-правый монитор" составляет 60°. В случае необходимости этот угол может быть уменьшен до 50° - 45°. Сабвуфер тоже должен располагаться где-нибудь перед вами. Тыловые мониторы должны располагаться под углами -110° (левый тыловой) и 110° (правый тыловой). В идеале все мониторы должны быть равноудалены от вас и откалиброваны таким образом, чтобы при подаче сигналов одинакового уровня на разные мониторы вы слышали их с одинаковой громкостью. Высота размещения мониторов - на уровне вашей головы или немного выше.

Особенности сведения в круговую панораму

Серьезно занимаясь проблемой обработки звука, мы на протяжении многих лет внимательно следим за публикациями, имеющими отношение к этой теме. Поэтому можем уверенно констатировать, что работ, посвященных вопросам технологии сведения в стерео, не так уж и много. А вот статей, содержащих конкретные рекомендации по созданию многоканальных записей, практически нет совсем. Видимо, это можно объяснить тем, что проблема нова, отсутствует необходимый опыт, нет сложившихся традиций. Во всяком случае, самостоятельные музыкальные произведения, сведенные в круговую панораму, еще не стали массовым явлением. Многоканальный звук, в основном, существует как дополнение к видеоизображению. Ясно, что подходы к панорамированию звука для саундтрека кинофильма и звука музыкальной композиции должны отличаться. При сопровождении видео требуется размещать основной звук спереди, так как именно на экране перед зрителем происходит действие. Задние каналы используются для придания звуку объема и реализации специальных эффектов. Конечно, при работе с surround-музыкой можно ориентироваться на наработки, имеющиеся в области создания звука для современной кинопродукции. То есть можно поместить основной звук спереди, слегка окружая слушателя, а тыловые каналы использовать для воссоздания акустики окружающей среды и перемещения второстепенных источников звука. И все же, если речь идет о музыкальном произведении, которое создается без расчета на увязку с видеосюжетом, то автор может пользоваться полной свободой в применении новых выразительных средств, заложенных в собственно круговой панораме. Например, вы можете "посадить" слушателя среди исполнителей, передвигать вокруг него все звуковое поле или отдельные источники звука, перемещать их в "глубину" панорамы.

Правда, спецэффекты панорамирования лучше использовать в меру. Например, вряд ли есть смысл конструировать виртуальный рояль, клавиатура которого, судя по звучанию, выглядит окружностью, охватывающей слушателя. Звуки ударных, помещенных в тыловые каналы, и особенно внезапные громкие звуки, раздающиеся сзади, вполне1 могут стать причиной, по которой ваше песня не станет хитом. Мало кому может понравиться, если придется то и дело рефлекторно оборачиваться или подскакивать от испуга.

При подготовке стереофонических записей мы вынуждены сознательно ограничивать себя в использовании возможностей стереопанорамы применительно к некоторым музыкальным инструментам. Причем ограничения продиктованы не только художественными, но и техническими соображениями. Например, совершенно нет смысла смещать бас с центра стереопанорамы. Во-первых, потому, что все равно в области низких частот стереоэффект проявляется очень слабо. Во-вторых, если бас панорамировать влево или вправо, то мощность одной из акустических систем не будет использоваться в полной мере. А это уже серьезный недостаток, так как на низкочастотную область спектра всегда приходится заметная доля общей мощности звукового сигнала.

Аналогичные проблемы имеются и в системах 5.1, хотя задачу формирования низкочастотных звуков здесь решает сабвуфер. Одна из таких проблем - использование центрального канала. В кино он предназначен для привязки доминирующих звуков к изображению, чтобы зрители, сидящие не по центру, воспринимали эти звуки, исходящими с экрана. В музыке те звуки, которые в стерео обычно направляются в левый и правый каналы равномерно (основной вокал, бас, часть барабанов), лучше распределять между центральным и фронтальными каналами. Это позволит избежать перегрузки центрального канала. Кроме того, различимость звуков увеличивается, если одни из них больше направлять в центральный канал, а другие - одновременно в левый и правый передние каналы.

Формат 5.1 предоставляет массу новых возможностей в применении эффектов, подобных дилэю и реверберации. Реверберационный сигнал может располагаться в том же направлении, что и прямой сигнал. Вместе с тем, подобно тому, как в стереозаписях перекрестное направление реверберации приводит к кажущемуся расширению стереобазы, впечатление увеличения объема виртуального помещения можно получить, если реверберацию фронтальных звуков сделать чуть сзади, а тыловых - чуть спереди. Не только сами кажущиеся источники звука, но и эхо-сигналы, порожденные ими, можно динамически перемещать в пределах круговой панорамы.

При сведении в круговую панораму появляются дополнительные признаки, по которым слух может выделять отдельные партии: направление на источник звука в пределах 360° и, в какой-то мере, расстояние до него (глубина панорамы). Поэтому нет особой необходимости производить частотную фильтрацию с целью выделения одних звуков на фоне других, а также изменять громкость инструментов по ходу песни или компрессировать отдельные аудиосигналы.

Что касается дополнительной обработки компрессором уже сведенной композиции, то такая операция представляется недопустимой. Она может привести к возникновению смещения положений кажущихся источников звука, предварительно позиционированных в определенных точках. А те из источников, текущие значения уровня сигналов которых в какой-то момент превысят порог срабатывания компрессора, будут к тому же и хаотично "перемещаться" по случайным траекториям. Думается, что ситуация изменится лишь с появлением широкодоступных многоканальных виртуальных эффектов и обработок, реализующих алгоритмы обработки, в которых учитывается специфика панорамирования объемного звука и психоакустический фактор. В настоящее время зачатки подобных алгоритмов можно найти в программных кодеках, преобразующих, например, WAV-файлы, располагающиеся на 6 отдельных треках в единый цифровой поток АС-3. К сожалению, суть таких алгоритмов скрыта от пользователя, а число параметров, доступных для регулировки, чрезвычайно мало.

Представляется, что обеспечение моносовместимости записей, сведенных в формате 5.1, нереально. Обеспечение стереосовместимости готовой фонограммы тоже проблематично. Видимо, единственно правильным решением будет целенаправленное и раздельное сведение композиции в моно, стерео и в формат 5.1.

Сущность, задачи и этапы мастеринга применительно к стереофоническим фонограммам - прямо скажем, проблема эта весьма непроста. А с мастерингом в многоканальных форматах дело обстоит еще сложнее. Многое еще не ясно. Не фильтровать, не компрессировать, не контролировать моносовместимость, не осуществлять подготовку к выводу альбома на различные носители. А что же тогда следует делать с записями 5.1 на этапе мастеринга?

И еще об одной вещи хочется сказать. Вы можете слушать FM-радио или CD и заниматься при этом своими делами, например, читать эту книгу. При этом важно, чтобы звук был комфортным: не должно быть перепадов громкости и тембра, отвлекающих от основного занятия. А вот слушать композицию в формате 5.1 "краем уха" практически невозможно. Сам по себе формат 5.1 подразумевает погружение слушателя в музыку. Поэтому еще один подход может заключаться в том, чтобы на этапе мастеринга в формате 5.1 не делать ничего, кроме, возможно, нормализации. То есть вся ответственность за субъективное качество конечной фонограммы переносится на этап сведения, а мастеринг осуществляется по принципу "что есть, то есть". А если же все-таки слушателю потребуется более комфортное звучание без перепадов громкости, то он может включить на своей системе соответствующую опцию (типа Enable Dynamic Range Compression - компрессия динамического диапазона).

Данная статья основана на моей дипломной работе по теме «Разработка принципов имитации объемного звучания в развлекательной сфере», кафедра информационных технологий, МАИ 2011 год. Для адаптации текста вырезаны сухие статистические данные, язык сделан более живым, вставлены отсылки к книгам и статьям, которые я могу порекомендовать. Затронутые вопросы будут интересны тем, кто еще только изучает механизмы локализации звука. Программная часть в статье не затрагивается. Для дополнительного интереса из статьи не вырезана практическая часть создания бинаурального манекена-микрофона.

Хочу выразить благодарности Борису Климову за создание эксклюзивных иллюстраций, а так же Надежде Гурской за анализ и правки текста.

Введение

Основная цель виртуальной реальности «погрузить» человека в пространство игры, действия на экране (фильм, мультфильм, 5D кинотеатр) настолько, чтобы на время он забыл о реальности мира окружающего.

О понятиях «Immersion», а так же «Suspension of Disbelief» по отношению к звуку и музыке можно прочитать в книге Winifred Phillips – A Composer’s Guide to Game Music.

Объемное звучание – залог того, что человек сможет ощутить эффект «присутствия». Восприятие звукового пространства, очевидно, было востребовано еще задолго до появления средств записи звука: на протяжении веков создавались помещения, такие как храмы, театры, концертные залы, где обеспечивалось «погружение» слушателя в звуковое пространство путем создания естественного акустического эффекта - реверберации. Научные исследования поведения акустики в концертных залах фирмой «Bose» показали, что приблизительно 11% доходит до слушателя напрямую, остальной процент звука приходит в отраженном виде от стен, пола и потолка и других объектов вокруг слушателя, тем самым создавая объем звука. С информативной точки зрения 25% информации об окружающем мире, получаемой человеком, приходится на звук.

Подход к звуку в современных кинотеатрах приучает слушателя к тому, что звук может и должен быть качественным и реалистичным. Профессиональными разработчиками современных игровых приложений работе со звуком отводится до 40 процентов бюджета и временно-людских ресурсов. С другой стороны некоторых разработчиков игр и приложений ещё надо убедить потратить время и средства на реализацию качественного звука.

На тему различных подходов интересно почитать статьи «Озвучивание компьютерных игр» 1 и 2 части от Кристофера (свободно ищется в интернете).

Восприятие звука человеком

Человеческий слух способен воспринимать звук в диапазоне от 16-20 Гц до 15-20 кГц. Звуки с частотой ниже 20-30 Гц (инфразвук) воспринимается не органом слуха, а осязанием, например, через вибрацию поверхностей. Частоты предельных нижних значений слышимого спектра могут восприниматься через резонансы внутренних органов человека. При небольшой интенсивности звук низкой частоты оказывает дополнительное эмоциональное воздействие (например, популярный эффект sub drop).

Уменьшение диапазона слышимых частот связано с изменениями во внутреннем ухе и с развитием возрастной нейросенсорной тугоухости. К 60-и годам слышимый диапазон на верхней границе становится не выше 10-12 кГц. Так как основной контингент развлекательной сферы люди молодые, то воспринимаемый слухом диапазон должен учитываться в полной мере. Но и специалист по звуку должен обладать полноценным слухом, слышать неестественность и неполноту тембра, мочь выявить резонансы. И что не маловажно - беречь слух от перегрузок. Многие люди в музыкальной-звуковой сфере испытывают постоянные нагрузки от звукоусиливающей техники и громких акустических инструментов (как и я сам, за более чем 12 лет игры на ударных инструментах). Современный человек подвержен негативному воздействию окружающих шумов, что снижает его чувствительность, притупляет верхние границы частот раньше естественной тугоухости. Не нужно пренебрегать такими средствами защиты слуха, как беруши. Также негативное влияние могут оказывать звуки низких частот.

Подробно с негативным воздействием звука (в том числе технического) можно ознакомиться в книге Чедд Г. – Звук.

Восприятие звука индивидуально, оно зависит от конфигурации (формы) ушной раковины, физиологических особенностей, возраста и от психологического настроя в конкретный момент. В рассматриваемой сфере восприятия звука также зависит от:
- средств воспроизведения (динамики воспроизводящего устройства, наушники, колонки, многоканальные системы),
- помещения в котором осуществляется прослушивание,
- качества средств преобразования (например, реализация звукового процессора, движка),
- соблюдения принципов создания правильной звуковой картины, если речь идет о саунд-дизайне.

Механизмы локализации источника звука человеческим слухом

Способность человека локализовать источник звука в пространстве строится на принципе бинаурального слуха. Бинауральное (от лат. bini - «два» и auricula - «ухо») строение слуховой системы заключается в различном восприятии звуковых сигналов пришедших на правое и левое ухо. Алгоритм локализации источника звука:
- звуковой сигнал, исходящий от источника звука и переотражений помещения, попадает во внешнюю часть слуховой системы, где конфигурация ушной раковины позволяет передать во внешний слуховой канал уже частотно обработанный сигнал,
- сигнал проходит в барабанную перепонку человека, в силу вступают механизмы внутреннего уха,
- из внутреннего уха информация поступает в отделы головного мозга, где на основе анализа сравнения сигналов, поступивших с каждого из слуховых каналов, делаются выводы о расположении звукового источника.

Человеческий мозг сравнивает информацию, пришедшую из барабанных перепонок, с той информацией, которая уже хранится в памяти.

Рис. 1. Строение внешней части слуховой системы человека

Подробно об устройстве внешнего и внутреннего слуха и о многих другом можно прочитать в книге Ирины Алдошиной и Роя Приттса – Музыкальная Акустика, глава «Восприятие звука. Основы психоакустики»

Для определения месторасположения звукового источника в пространстве слуховая система использует основные механизмы локализации: по разнице во времени, по разнице интенсивности, по разнице амплитудно-частотного спектра. К вспомогательным механизмам относятся отражения звука от туловища и плеч человека, реверберация, окклюзии (звук, прошедший через препятствие), обструкции (звук отфильтрованный препятствием), эффект Доплера, эффект Хааса (эффект предшествования). Не стоит забывать про эффект психологического восприятия: при несоответствии источника в видимом пространстве со звуком или нарушении синхронности качество локализации резко падает.

Определять пространственное положение источника звука приходится при наличии звуковых помех. Существуют естественные механизмы помехоустойчивости слуховой системы. Один из них проявляется в бинауральном освобождении от маскировки. Феномен состоит в том, что локализовать звуковой сигнал на фоне статичных помех (например, шумов окружения) легче.

Пару слов о прозрачности звучания. Приведу известный пример. Представим несколько контурных рисунков животных, наложенных друг на друга. Опознавание совмещенных в пространстве рисунков тем сложнее, чем ближе формы изображенных животных (термин форма имеет тот же смысл, что и в звуковом сигнале). Если же эти рисунки разнести в пространстве, то задача определения животного по форме становится значительно проще.

Локализация по временной разнице (фазовая локализация)

Данный механизм работает на частотах от 300 Гц до 1,5 кГц. За счет разницы между положением левого и правого уха звук, приходящий от источника, расположенного под углом к фронтальному направлению, затрачивает различное время для достижения барабанных перепонок.

Рис. 2. Схематичный пример фазовой локализации

При одинаковом времени, затрачиваемом для достижения сигнала левого и правого уха, данный механизм будет локализовать источник в азимуте 0 и 180 градусов. Различное время достижения барабанных перепонок приводит к появлению фазового сдвига. Слуховая система различает фазовый сдвиг до 10-15 градусов. С повышением частоты, а соответственно, с уменьшением длины звуковой волны, фазовый сдвиг сигналов, пришедших от одного и того же источника к разным ушам, увеличивается. Как только сдвиг достигает значения, близкого к половине длины звуковой волны механизм перестает работать. Человеческий мозг не может однозначно определить, отстает ли звуковой сигнал в одном из слуховых каналов от другого или, наоборот, опережает его.

Максимальная разница во времени, соответствующая полному смещению источника звука вправо или влево, не может быть больше 630 мкс.

Расстояние между правым и левым ухом взрослого человека составляет 0,15 м-0,20 м, если брать среднее значение по полу. При источнике, излучающем звуковую волну с частотой 20 Гц и скорости звука в 340 м/с, длина волны будет составлять 17 м. Соответственно, если человек повернется к источнику одной стороной, то фазовый сдвиг сигналов, пришедших в одно ухо, а затем в другое, будет составлять примерно 1,1 % от всего периода 20 Гц волны (локализации на таких низких частотах невозможна). Физиологически точность локализации зависит от размера головы, то есть расстояния между ушами. Чем больше это расстояние, тем с большей разницей приходят звуковые сигналы в каждое ухо.

При излучении звука источником, расположенным под определенным углом к фронтальному направлению, уровень звукового давления на барабанные перепонки в разных ушах будет различным. Это связано с тем, что одно ухо будет находиться как бы «в тени», которую создает голова, а также с тем, что звуковые волны выше 1000 Гц сравнительно быстро затухают в пространстве.

Рис. 3. Схематичный пример локализация по уровню интенсивности

Данный механизм является достаточно эффективным, но в диапазоне звуковых частотах от 1600 Гц. При длине звуковой волны, сравнимой с диаметром человеческой головы, дальнее от источника ухо перестает находиться в «акустической тени», что обусловлено явлением дифракции звуковой волны на поверхности головы. При этом опытным путем было выявлено, что способность человеческим слухом определения угла между двумя источниками в горизонтальной плоскости в области частот 1500-2000 Гц резко снижается.

Такой механизм способствует определению расстояния до источника звука. Однако уровень звука от слабого, но близко расположенного источника может быть таким же, как от мощного, но удаленного на значительное расстояние. При таких условиях локализации способствует следующий механизм.

Локализация по разнице амплитудно-частотного спектра

Механизм основывается на возможности анализа мозгом АЧ провалов и подъемов определенных частот в сложном сигнале. Звук, приходящий под углом 90°, содержит как низкочастотные, так и высокочастотные составляющие, а в спектре звука, действующего на дальнее ухо, высокочастотных составляющих будет меньше - экранирующее воздействие головы. Кроме того, звуковой сигнал по-разному отражается от участков ушной раковины, происходит усиление и ослабление различных участков звукового спектра.

Данный механизм отвечает за локализацию фронт-тыл и вертикальную плоскость. Изучение фильтрующего действия головы и ушных раковин слушателя позволило ввести понятие пеленговых полос. При локализации человек анализирует не весь спектр приходящего звука, а лишь изменения некоторых частот. Такие полосы сформировались эволюционно, слух выработал собственную систему отслеживания и предупреждения опасности, достаточно точно локализуя откуда исходит угроза.

Изменения в полосах от 16 до 500 Гц и от 2 до 6 кГц отвечают за локализацию передних источников звука. Полоса от 0,7 до 2 кГц - изменение тембра источников, которые могут располагаться сзади.

Сигнал со сложным спектральным составом локализуется лучше, а ощущение направления «фронт-тыл» формируется преимущественно теми полосами направления, в которых сосредоточена большая часть мощности сигнала. Чистые тона, которые, практически не встречаются в природе локализуются хуже сложных сигналов. Так, чистые тона свыше 8000 Гц поддаются локализации с трудом. Невозможно определить и местоположение источников звука низкой частоты - менее 150 Гц.

Локализация в вертикальной плоскости гораздо хуже, чем в горизонтальной. Без психологического, зрительного воздействия практически невозможно создать имитацию объекта, который должен располагаться, например, сверху. Этот звук должен быть как минимум привычный и ожидаемый.

Гибсон Д. в своих книгах и видео выдвигает концепцию о вертикальном расположении инструментов в музыкальном миксе по их звуковысотности (тесситуре) или форманте (область усиленных частичных тонов), так как в вертикальной плоскости звуковоспроизводящая техника построена по такому же принципу. За счет акустического кроссовера с определенными границами сложный сигнал делится на полосы частот. В трехполосной системе снизу расположен woffer предающий НЧ, в средней части mid-driver для СЧ и tweeter в верхней части системы для передачи ВЧ. А sub-woffer передает часть информации через пол. Такой подход интересен, но не подходит для многих систем, например, при использовании наушников или любой другой системы без разделения на полосы.

Подробнее с описанными принципами можно ознакомиться в книге Гибсон Д. - Визуальное руководство по звукозаписи и продюссированию.

Тем не менее уменьшение интенсивности низких частот психоакустически помогает «приподнять» объект, сделать его легче.

Перемещение источника звука

До 1960-х годов изучение способности человека локализовать источник звука в пространстве в основном касалось неподвижных источников звука. После же началось исследование восприятия человеком и движущихся источников звука: определялись основные характеристики восприятия.

В ходе исследований оказалось, что для того, чтобы у человека возникло ощущение движения звука, необходимо определенное время - временное окно. Оно колеблется от 0,08 до 0,12 с. Локализовать же короткий неподвижный звук (например, щелчок длительностью порядка 0,001 с.) достаточно легко.

Так же человек может различать скорость движения источника звука: чем она выше (в определенных пределах), тем тоньше эта способность. Если источник звука движется со скоростью 90°/с (движение по полупериметру перед головой испытуемого), человек различает изменение скорости на 15%; а при скорости движения 360°/с - на 5,5%.

Если источник является неподвижным, то для его локализации человек подсознательно совершает микроперемещения головы, на порядок повышающие точность определения положения источника в пространстве.

Эффекты

Для того чтобы правдоподобно передать звук от движущегося источника, необходимо учитывать (эффект изменения частоты звука от источника при нерадиальном перемещении его относительно слушателя). По субъективному ощущению эффекта звук резко меняет тон - становится более высоким при приближении объекта и более низким при его удалении. В игровой сфере эффект Доплера играет значимую роль. Особенно, если речь идет об авто симуляторах и других приложениях связанных с быстрым перемещением объектов. Эффект Доплера распространённым плагином для секвенсоров, а также, на сколько мне известно, существует во многих звуковых движках.

Одним из основных эффектов создания пространства является эффект реверберации (процесс многократного переотражения звукового сигнала от различных поверхностей с постепенным уменьшением его интенсивности). У моделируемой реверберации существует ряд параметров - время раннего отражения, время позднего отражения, скорость затухания, процентное соотношение «сухого» сигнала с обработанным. Эти параметры указывают на размер помещения и место источника звука в нем относительно слушателя. В работе я использую исключительно конволюционные (сверточные) ревербераторы, применяя к ним импульсы реальных помещений. Не вдаваясь в подробности технологии сам импульс представляет из себя шумовой «слепок» помещения (wav файл), который модулирует исходный звуковой файл, тем самым помещая его в имитируемое пространство. В музыкальной сфере конволюционные технологии давно используются, так в оболочке Kontakt (4,5) от NI конволюционный ревербератор с набором импульсов имеется в списке стандартных эффектов.

Звуковые системы. Бинауральная система

Существует два основных подхода по организации современных звуковых систем в помещении: многоканальные системы и двухканальные системы (в том числе и наушники). В многоканальных системах звук передается из мониторов, размещенных спереди и сзади от слушателя (либо вокруг него).

Подробно с монофоническими, бинауральными, стереофоническими и многоканальными системами и их тонкостями можно ознакомиться в книге Ю. Ковалгина - Стереофоническое радиовещание и звукозапись.

Для усиления пространственного эффекта производители пытаются продвигать концепции систем уже не пяти-, а шести-, семи- и даже девятиканальные. Увеличение количества каналов требует усложнение работы звукорежиссера, увеличения количества акустических систем, коммутационных проводов, применения более сложных усилителей, а, следовательно, позволяет увеличивать доходы с продаж.
Не всем потребителям необходимы многоканальные аудиосистемы. Для кого-то это неприемлемо по экономическим соображениям, кто-то не может выделить под систему домашних развлечений помещение в жилом помещении. Кто-то по очевидным причинам предпочитает пользоваться наушниками (в ночное время суток, при перемещении в транспорте и т.д.).

Всего два уха обеспечивают человека всей необходимой информацией об объекте, это значит, что для ее передачи достаточно всего лишь двух громкоговорителей. При использовании бинауральной записи кажущиеся источники звука в случае применения наушников оказываются вынесенными за пределы головы слушателя в то место, где расположены действительные источники звука. В отличие от этого, при прослушивании через наушники сигналов обычной стереофонии кажущиеся источники звука ощущаются как расположенные внутри головы слушателя.

Появление реверберации затрудняет оценку азимута кажущихся источников звука в тыловой области, где слушатели вместо истинного направления часто указывают соответствующее ему зеркальное фронтальное направление. Данное явление возникает особенно часто, когда время стандартной реверберации в помещении прослушивания превышает 0,3 с.

Правильная передача пространственной информации при воспроизведении с помощью двух мониторов возможна, но даже незначительное (около 9-15 см.) смещение центра головы слушателя влево или вправо от этой точки приводит к тому, что локализация кажущихся источников звука оказывается невозможной вне фокуса осей мониторов.

В оптимальной точке прослушивания бинауральная система обеспечивает звучание, уверенно предпочитаемое обычному стереофоническому. Однако ее применение весьма ограничено: воспроизведение с помощью наушников, переносная аппаратура радиовещания и звуковоспроизведения, компьютерное моделирование. Бинауральная звуковая система мало пригодна для условий коллективного прослушивания.

При воспроизведении бинаурального сигнала через акустическую систему из-за попадания сигнала правого канала в левое ухо слушателя и наоборот возникают перекрестные искажения.

В реалиях игрового саунд дизайна записанные бинауральные аудио файлы не применяются, потому как невозможно изменять их положение в пространстве, нет виртуального источника и виртуального слушателя, это не моделирование.

Алгоритмы

Основной алгоритм, использующий основные механизмы локализации звука человеком, реализован в HRTF (Head Related Transfer Functions - функции перемещения звука относительно слушателя. Количественно HRTF определяются обратным интегральным Фурье преобразованием коэффициентов под названием HRIR (Head Related Impulse Response), которые в первом приближении определяются отношением давлений на барабанную перепонку уха звуковой волны в свободном пространстве (free field) и в реальном пространстве с учётом головы человека, ушных раковин, его корпуса и других препятствий.

HRTF представляет собой сложную функцию с четырьмя переменными: три пространственных координаты и частота. При использовании сферических координат для определения расстояния до источников звука больших, чем один метр, принимается, что источники звука находятся в дальнем поле (far field),значение HRTF уменьшается обратно пропорционально расстоянию. Большинство измерений HRTF производится именно в дальнем поле, при этом количество переменных уменьшается до трёх: азимут (azimuth), высота (elevation) и частота (frequency). Действие HRTF зависит от частотного диапазона обрабатываемого сигнала: только звуки со значениями частотных компонентов в пределах от 3000 Гц до 10000 Гц могут успешно интерпретироваться с помощью функций HRTF. Если сигнал от источника звука не содержит особую частоту, влияющую на разницу между фронтальными и тыловыми HRTF функциями, то такой сигнал никогда будет локализован по направлению фронт-тыл.

HRTF моделировался при помощи манекена KEMAR (Knowless Electronics Manikin for Auditory Research) и специального «цифрового уха» (digital ear), разработанного компанией Sensaura. В ушах манекена размещаются микрофоны, а вокруг манекена - акустические колонки, в результате происходит запись того, что слышит каждое «ухо». Получаемые при таком моделировании результаты используются для пополнения базы данных по HRTF, которые затем могут быть использованы для интерактивного выбора параметров при воспроизведении позиционируемого 3D звука (в базе данных компании Sensaura накоплено более 1100 HRTF). Необходимость в такой базе данных объясняется, во-первых, различием размеров и формы головы и ушных раковин манекена и потенциального слушателя и, во-вторых, определяемых этими параметрами так называемой зоны sweet spot, в которой корректно воссоздаётся эффект звучания в вертикальной плоскости и гарантируется правильное определение местоположения источников звука в пространстве. Чем больше область sweet spot, тем большую свободу действий имеет слушатель. Поэтому разработчики постоянно ищут способы увеличить область действия sweet spot.

Компания QSound при реализации технологий с HRTF опирается не только на математические методы, но и на апробацию слушателями (таких прослушиваний было проведено около 550 тыс.). Специалисты компании Sensaura после серии опытов определили, что HRTF в чистом виде «работает» только при воспроизведении через наушники. Моделирование звука в этом случае тривиальная задача: каждый динамик контролирует соответствующее ему ухо. Однако при воспроизведении того же самого звука через колонки правое ухо слышит также звук, призванный «обманывать» с точки зрения трехмерности левое, и наоборот. Для исключения этого явления требуется добавить в звук дополнительные компенсационные вычисления. Удачные алгоритмы компенсации были разработаны, они получили название Transaural Cross-talk Cancellation (TCC). Решена задача была с помощью другой идеи инженеров Sensaura. Она заключается в том, что функции HRTF действуют только для среднестатистического уха, так как выведены с помощью одного манекена или усредненных показаний большой группы людей. Sensaura разработала цифровую модель уха, в которой можно задавать параметры ушной раковины. С помощью этой цифровой модели сочетанием разных параметров можно воспроизвести форму практически любого уха. Получившийся драйвер цифрового уха работает так: при его установке человек слушает ряд тестовых звуков и настраивает параметры драйвера, чтобы наилучшим образом ощущать трехмерность звука. Индивидуальные параметры слушателя записываются в специальный «профиль», он впоследствии и используется приложениями.

Хотите получить качественный объемный звук в своих наушниках или на домашнем кинотеатре совершенно бесплатно? Читайте эту инструкцию.

С каждым новым выпуском (обновлением) операционной системы Windows 10, разработчики не перестают удивлять пользователей различными полезными мини-функциями. Стоит лишь перейти в какие-либо параметры системы, устройств, персонализации, конфиденциальности и т.д., непременно можно найти, на первый взгляд сразу не слишком заметные, но очень полезные настройки.

И кто бы не говорил, Майкрософт разрабатывает свою операционку, в первую очередь, для нас с вами. Все эти заявления о том, что они собирают конфиденциальные данные, следят за нами — ерунда!

Грамотный юзер настроит работу системы так, что передача секретной информации другой стороне будет сведена к минимуму. Не хотите сбора данных о ваших предпочтениях, отключите такую возможность. Надоела реклама — заблокируйте её отображение. Боитесь вирусов и других вредоносных приложений — пользуйтесь официальным, а не взломанным софтом!

И наконец, если не нравится сама Windows, найдите замену в виде или MacOS. Но сейчас поговорим не об этом!

Последнее обновление системы поставляется с новой функцией «Пространственный звук». Если её активировать, то вы непременно получите ощущение, что звук играет вокруг вас, а не через наушники. Если сказать немного по-другому — он будет 3D или объемный.

Как вы можете убедиться, здесь Майкрософт никак не навязывает эту функцию пользователю, так как по умолчанию она отключена. А дальше мы узнаем, как её включить.

ОБЪЕМНЫЙ ЗВУК

Windows 10 умеет транслировать пространственный звук при помощи комбинации специального драйвера, приложения и наушников. Эта технология предназначена для улучшения качества звучания, в первую очередь, ваших наушников.

Для включения необходимо:

кликнуть правой кнопкой мышки по значку в системном трее и нажать на «Устройства воспроизведения»;
выбрать «Динамики» и нажать на кнопку «Свойства»;
перейти на вкладку «Пространственный звук» и выбрать его формат из раскрывающегося списка (Windows Sonic или Dolby Atmos for headphones).

DOLBY ATMOS

Это технология объемного звука для создания в реальном времени динамически отображаемой звуковой среды. Для её работы требуется специальное приложение из магазина Store. Если вы выберете этот вариант и нажмете кнопку «Применить», он автоматически установит приложение Dolby Access.

Существенным плюсом приложения является поддержка улучшения звучания и для домашнего кинотеатра, в случае аппаратной поддержки им технологии Dolby.

Настройка не заставит пользователя вникать в дебри сложных параметров. Просто выберите соответствующий профиль на стартовом экране и приложение автоматически настроит оборудование.

WINDOWS SONIC

Включает интегрированный пространственный звук в Xbox и Windows, с поддержкой сигналов как для объемного звучания, так и для их высоты. Аудио сможет быть передано без необходимости изменения кода.

Теперь итог! В моем случае, даже самые простые и дешевые наушники при выборе формата Dolby Atmos изменили свое звучание, на порядок качественнее первоначального. Что получилось у вас? Жду ответа в комментариях.

Настоятельно прошу вас заглянуть в . Наша группа в Facebook ждет вас.

Термин «3D-звук» использовался настолько часто в разной технике, что сейчас уже сложно понять, что же именно он означает. Это может быть и простой алгоритм расширения стереобазы, и, например, бинауральная запись для наушников. Поэтому компания Auro особо подчеркивает, что в ее понимании 3D-звук - это звук в трех измерениях, когда схема расстановки колонок ведется по трем перпендикулярным осям (x, y, z), а запись и сведение делаются исходя из такой расстановки системы. О том, что творится внутри Auro-дорожек и почему бельгийская компания решила отвоевать себе рынок у Dolby Atmos и DTS:X, и пойдет речь.

История

Все началось с телефонного звонка в марте 2005 года. Немецкий продюсер Том Хапке загорелся идеей сделать микс в аудиоформате 2+2+2 и предложил заняться этим Вильфриду ван Балену (Wilfried Van Baelen), главе бельгийской студии Galaxy. Вильфрид поначалу отнесся к идее скептически: эта конфигурация предполагала квадрофоническую схему с двумя дополнительными каналами, установленными повыше фронтальных, и казалась оправданной в озвучке фильмов, но в чем же выиграет музыка от двух дополнительных фронтальных каналов, он не понимал. Пока не послушал классику в таком формате.

Звук оказался глубже, прозрачнее, объемнее, чем в «плоскостной» конфигурации 5.1, и побудил Вильфрида на эксперименты. Так как альбом необходимо было записать в форматах 2+2+2, 5.1 и 2.0, он взял за отправную точку схему 5.1 и добавил к ней пару фронтальных каналов, однако после ощутил дисбаланс: за фронтальную полусферу отвечали 6 каналов, в то время как за тыловую - всего 2. Его решение было простым - добавить еще больше каналов, и так тылы тоже обзавелись дополнительной парой спикеров, расположенных чуть выше. Конфигурация доросла до формата 9.1, но при этом не утратила обратной совместимости с форматом 5.1.

По словам Вильфрида, то, что он испытал, было сравнимо с его первым знакомством с квадрофоническим звуком. Колонки действительно исчезли, появилось ощущение присутствия на месте, где производилась запись.

Этот эксперимент и положил начало пятилетней истории разработки формата Auro 3D.

От уха до мозга

Вильфрид стал изучать принципы работы слухового аппарата, чтобы понять, почему же от добавления дополнительного звукового измерения у него настолько сильно изменилось восприятие звука и откуда возникло это ощущение погружения. В итоге он узнал, что такое всеобъемлющее впечатление создает диффузное поле за спиной.

Как известно, при сведении в стерео очень часто используется прием перехода звука из одного канала в другой, создающий иллюзию перемещения источника в горизонтальной плоскости. Вильфрид, продолжая эксперименты, захотел добиться похожего эффекта в вертикальной плоскости, но не преуспел. Сначала он считал, что проблема в оборудовании, но все оказалось интереснее: он услышал желаемый эффект, склонив голову набок и подойдя поближе к колонкам.

Суть в том, что диаграмма направленности человеческого слуха больше тяготеет к горизонтальной плоскости, и поскольку у людей нет уха на затылке, вертикальную составляющую мы соответствующим образом обработать не можем. В локализации звука человеку помогает разница в уровне сигналов, разница во времени восприятия сигнала левым и правым ухом и отраженные сигналы. На самом деле 90% звуков, которые воспринимает человеческое ухо - трехмерные отражения исходного сигнала. И находящиеся на уровне головы колонки воспроизводят именно те сигналы, которые впоследствии отражаются от пола.

По каналам, по объектам

Формат Auro-3D, в отличие от конкурирующих Dolby Atmos и DTS:X, не объектно-ориентированный, а поканальный. Для достижения «обволакивающего звука» к двум слоям колонок - классическому и второму, расположенному под углом 30 градусов к горизонту - Вильфрид добавил третий, установленный прямо над слушателем. Этот третий слой акустики получил название «глас Бога» и добавил третье измерение в звук - высоту. Если в стандартных кинотеатральных конфигурациях, даже в Dolby Atmos и DTS:X, слушатель окружен сферическим слоем звука, то в Auro-3D его как бы обволакивает полноценная полусфера.

В объектной технологии звукозаписи каждый источник звука прописывается отдельно, а в поканальной звук распределяется между разными каналами, а потом уже суммируется вместе в колонках. Например, при записи звука оживленной проезжей части в объектно-ориентированном формате не удастся выделить сами движущиеся объекты - машины, велосипеды, людей - для дальнейшего использования, нельзя будет получить отраженный от этих объектов трехмерный звук, равно как и прямой. В поканальной системе эта проблема решена путем упрощения, и именно здесь на сцену выходит вертикальная составляющая.

Третий слой колонок в Auro 3D создает вокруг слушателя «вертикальное стереополе», причем при любой схеме расположения акустики в Auro 3D. Сам по себе третий слой не помогает в локализации - он помогает в воспроизведении пролетающих над головой вертолетов, звездолетов и погодных эффектов, но человеческий слух мало восприимчив к поступающим непосредственно сверху звукам, да и в целом оттуда, с потолка, приходит мало звуковой информации. В этом виновата эволюция: так сложилось, что чаще всего на заре человечества опасность исходила примерно с того же уровня, на котором находился человек, а не сверху, и именно поэтому мозг усиленно обрабатывал отраженные от земли звуки.

Формат Auro 3D даже в сокращенной конфигурации, с меньшим количеством аудиослоев, способен воспроизвести вертикальное позиционирование источников звука, и поэтому прекрасно адаптируется к самым разным помещениям и системам. Кроме того, Auro 3D является единственным форматом 3D-звука на рынке, поддерживающим процесс мастеринга, основанный на смешивании всех каналов, чего не умеют форматы объектной записи. Фактически Auro 3D - единственный формат на рынке для музыки в 3D. При этом в век сжатых фоматов - MP3, AAC и других - Auro 3D имеет качество 24 бит/96 кГц.

На каждом устройстве

Технология Auro-3D Engine включает в себя декодер Auro-Codec и апмиксер Auro-Matic. С помощью этих двух алгоритмов и достигается универсальность системы. Декодер распознает и декодирует нативный звук в формате Auro-3D, в то время как апмиксер использует алгоритм повышающего распределения звука из моно, стерео, 5.1 и 7.1 в Auro-3D, при наличии, конечно, необходимого количества каналов. То есть фильмы, уже записанные на Blu-ray или даже DVD, и музыку, смонтированную в стерео, можно будет оценить в новом, максимально трехмерном формате.

Традиционно технология апмикса использует изменения в эквализации спектра и добавляет алгоритмы отражений. При разработке Auro-Matic инженеры не хотели слышать лишних ревербераций или фазовых неточностей, но хотели передать звук максимально близко к тому, как его слышал и задумывал автор. И разработали алгоритмы, связанные с HRTF (Head Related Transfer Function) - технологией, которая учитывает, как человеческое ухо воспринимает звуки в естественных условиях. Обладатели iPhone и iPad могут оценить работу алгоритма, ознакомившись с приложением Beautifyer (увы, не доступен в России).

В свое время Auro-Technologies столкнулась с интересной проблемой: разработчики оборудования не стремились внедрять технологию Auro-3D из-за того, что не было соответствующего контента, а создатели контента не использовали Auro-3D формат из-за того, что его не на чем было воспроизводить. Поэтому компания решила самостоятельно выпустить ресивер, поддерживающий Auro-3D, и со временем за ней подтянулись и остальные. Сейчас помимо линейки продуктов от компании StormAudio все больше и больше производителей внедрили Auro-3D в свое AV оборудование: среди них Denon, Marantz, Steinway Lyngdorf, Macintosh, Trinnov, Theta Digital, StormAudio, ATI и Datasat.

Интерфейс настроек инсталляции Auro-3D в процессоре Trinnov Altitude 32

Помимо домашних и недомашних кинотеатров и аудиосистем Auro-3D занял место и в автомобильной промышленности. Совместно с компанией Continental разработчики создали в автомобиле уникальную встроенную систему трехмерного звука, и первые автомобили, оборудованные системой Auro-3D, увидят свет в 2017 году. Звуковое поле такого плана меняет атмосферу для водителя, позволяет ему расслабиться и почувствовать себя комфортнее, и даже, по мнению некоторых, будто бы расширяют пространство салона. Как считает Вильфрид, при прослушивании музыки в 3D наш мозг меньше напрягается, чем при обработке стереофонограммы - отсюда и дополнительный комфорт.

Автомобиль Porsche Panamera с установленной системой от Burmester, которая умеет работать с Auro-3D-звуком

Сейчас уже есть порядка 200 альбомов, записанных в формате Auro 9.1, а совсем немного - в формате 10.1, с использованием наивысшего канала. Область использования этого канала достаточно специфична - он нужен для воспроизведения именно тех звуков, которые доносятся непосредственно сверху, а в музыке расположенных над слушателем объектов обычно не бывает. Даже записи живых концертов не нуждаются в «гласе Бога», потому как в концертных залах, как правило, меньше отражений. Среди двух сотен альбомов в формате 9.1 встречаются не только классические композиции, но также и джаз, и рок, и популярные исполнители, и даже танцевальная музыка.

Также формат захватит и мобильные устройства. В сочетании с бинауральной технологией Auro-3D для мобильных устройств сможет создавать трехмерный иммерсивный звук сразу в смартфоне и передавать его в наушники: система способна как декодировать оригинальный Auro-3D контент, так и воспроизвести всю стереофонтеку, фильмы и прочие медиафайлы в звуковом формате Auro-3D при помощи апмикса.

Интерфейс программы Wwise с опциями для работы с Auro-3D-звуком

Особняком стоят видеоигры. Технология Auro-3D позволит создавать звуковые ландшафты, которые подарят игрокам совершенно иные ощущения. Компания заключила партнерство с Audio-Kinetics и внедрила формат в программу Wwise для создания звука для компьютерных игр. Версия AuroWwise поддерживает 3D-звук для интерактивных средств массовой информации и игр, сохраняя при этом все функциональные возможности. Первой игрой в формате Auro-3D станет Get Even, которая выйдет весной 2017 года. С колонками, правда, по мнению Вильфрида, такое звучание все равно не сравнится.

Сколько нужно колонок?

Для домашних кинотеатров минимальная рекомендованная конфигурация - 9.1, оптимальное решение - 11.1, а в особо крупных залах следует воспользоваться Auro 13.1. Места необходимо столько же, сколько и для оптимального размещения систем 5.1 и 7.1. Разработчики протестировали работу Auro-3D в самых разных помещениях - с высоким потолком, низким потолком, в сухой и влажной среде, и поняли, что система оказалась действительно гибкой.

Сейчас уже появился новый формат AuroMax - это гибридный, канальный и объектно-ориентированный формат, который использует конфигурацию от 20.1 до 26.1. Формат AuroMax - совместная разработка компаний Auro-Technologies, Barco и Iosono, и используется в полноценных кинотеатрах. В домашних кинотеатрах, по мнению разработчиков, необходимости в такой максимальной конфигурации нет, но слово заказчика - закон. Правда, места потребуется еще больше, чем на 13.1-канальную версию.

По мнению Вильфрида, даже миллион колонок не сможет воспроизвести окружающий нас мир натурально - наши уши слишком умны для того, чтобы их можно было так обмануть. Поэтому цель Auro-3D - не задействовать как можно больше каналов, а наоборот, добиться максимально обволакивающего звучания с наименьшим числом динамиков. Потому и не стоит пытаться уместить в небольшом кинотеатре 26.1-канальную конфигурацию - в ней просто не будет смысла, эффект от дополнительных каналов не перекроет потраченных на установку сил, нервов и денег. Лучше обойтись 11.1-канальной версией.

Для широкоформатных кинотеатров и киностудий

В 2011 году Вильфрид начал партнерство с бельгийским производителем видеооборудования Barco. Эта фирма стала использовать системы Auro-3D в своем оборудовании для кинотеатров, и в том же году впервые установила систему Auro 11.1. Первым фильмом в таком формате стала лента «Red Tails», снятая Джорджем Лукасом. Сейчас по всему миру системами Auro 11.1 by Barco и AuroMax оборудовано более 550 кинотеатров.

В России на сегодняшний день таким звуком оснащены главный премьерный кинозал «Октябрь» и 27 кинотеатров в Москве и других городах. Оборудование Auro-3D уже установлено в двух студиях - «Пифагор» и «Нева-Фильм». Всего более 100 студий по всему миру создают и дублируют фильмы в формате Auro-11.1 by Barco.

Прежде всего, формат хорош тем, что для студий и кинотеатров обходится дешевле. Официальный сайт Auro-3D указывает такие плюсы:

Отсутствие платы за лицензию

Минимальный объем усилий по распространению

Возможность использовать созданный контент в этом формате на системах Auro- 11.1 by Barco

Удобный переход от DCP к эквивалентному качеству на Blu-ray

Простота последующего преобразования

Возможность записи в формате Auro-11.1 by Barco непосредственно на съемочной площадке

Отсутствие необходимости в дополнительном мастеринге DCP и ключах

Дополнительные каналы кодируются непосредственно в мастер 5.1 (7.1)

Полная совместимость с миксом в 5.1 (7.1)

Не нужно тратить время на дополнительную перезапись в другом формате

Возможность использовать функцию «up mix» для готовых фильмов в формате стерео, 5.1, 7.1 для воспроизведения в Auro-11.1 by Barco

Где контент?

Поначалу, когда формат только зарождался, контента было мало. Но сейчас ситуация изменилась: в формате Auro-3D есть и музыка, и фильмы. Списки фильмов и музыки, а также будущих кинотеатральных релизов, опубликованы на сайте Auro-3D.

Поскольку большинство людей не являются экспертами в области аудио/видео технологий, то выбор форматов объемного звучания для них может оказаться очень сложной задачей. Поэтому мы решили дать характеристику всем универсальным аудио форматам.

Для начала необходимо рассмотреть нескольким общих терминов и понятий.

5.1 канальный звук - наиболее распространенный аудио формат. Он включает в себя шесть каналов звука - пять полной пропускной способности (фронтальный, тыловой, левый, правый и центральный) с частотным диапазоном 3-20 000 Гц, и один ограниченный низкочастотный (LFE) 2-120 Гц. Также существуют 6.1 и 7.1 системы объемного звучания, которые отличаются от 5.1 наличием дополнительных каналов полной пропускной способности.

Раздельный звук (Discrete) - также имеет несколько каналов воспроизведения сигнала, все они независимы друг от друга и сигнал не смешивается при воспроизведении.

Матричный формат (Matrixed) - звуковая информация записывается на небольшое количество каналов, а при воспроизведении декодируется (преобразовывается) и воспроизводится через большее количество аудиоканалов. Раздельные каналы более точно воссоздают объемную акустическую среду, но и матричное кодирование может вас порадовать качеством звука.

Сжатие без потерь (Lossless) - большинство форматов объемного звука сжимаются так, чтобы они имели небольшой размер и могли быть записаны на DVD диски или могли бы транслироваться спутниковым телевидением. Но сейчас многие Blu-ray вмещают гораздо больше информации, поэтому аудио воспроизводятся без потерь, а его качество соответствует оригинальной студийной записи.

Чем выше качество этих форматов, чем детальнее получается исходящий звук.

5.1-канальный звук

Как мы уже сказали выше, 5.1-канальный звук является наиболее распространенным в современных домашних кинотеатрах. Существует два основных формата, которые основаны на системах 5.1.

Dolby Digital

Формат Dolby Digital быстро заслужил популярность благодаря DVD фильмам. В настоящее время он также используется в HDTV и видеоиграх. Хотя Dolby Digital, грубо говоря, является только методом кодирования информации в цифровой формат, сам термин часто используется для обозначения аудио 5.1. Поэтому при рассмотрении Dolby Digital мы будем ориентироваться на 5.1.

В отличие от более ранних форматов объемного звука, аудио Dolby Digital с 5.1 каналами является раздельной многоканальной системой. Благодаря шести независимым каналам, аудио сигнал воспроизводится очень точно. Также вы получаете выделенный канал низких частот (сабвуфер) для качественного воспроизведения басов.

Как и Dolby Digital, DTS обеспечивает 5.1-канальный цифровой сигнал. Однако формат DTS при записи сжимается меньше, чем Dolby Digital. В результате звук получается немного более точным. Но, в то время как большинство аудио/видео ресиверов одинаково хорошо поддерживают и Dolby Digital и DTS, все же большинство DVD и видеоигр закодированы в Dolby Digital.

6.1-канальный звук

Не смотря на то, что 5.1 является наиболее популярным форматом и большинство домашних кинотеатров, продаваемых сегодня, являются системами с 5.1, но 6.1-канальный вариант тоже распространен. 6.1 система обеспечивает еще больший эффект присутствия, чем 5.1. Давайте рассмотрим основные варианты кодирования в 6.1.

DTS-ES использует существующие цифровые многоканальные технологии, чтобы воспроизводить 5.1- каналбный DTS, но при этом он добавляет раздельный, центральный тыловой канал с полной пропускной способностью. Хотя большинство фильмов кодируется на EX Dolby Digital, но ES DTS все еще используется, поэтому современные ресиверы 6.1 будут поддерживать оба формата.

Dolby Digital EX и THX Surround EX

Компания Dolby Labs в сотрудничестве с THX придумали собственное решение вопроса кодирования объемного звука с каналами 6.1. По существу они сделали тоже самое, что и DTS-ES - добавили матричный центральный тыловой канал, чтобы обеспечить полное звуковое пространство в 360 градусов. В случае если у вас 7.1-канальная система, аудио сигнал пойдет в оба тыловых динамика.

Многие DVD диски кодируются в EX Dolby Digital и имеют дополнительный . Кроме того, если вы будете воспроизводить Dolby Digital 5.1 DVD диск, то Dolby Digital EX или THX Surround EX декодер все равно будет имитировать 6.1-канальный объемный звук путем обработки информации в раздельных тыловых каналах и отправлять матричную аудио дорожку на тыловые динамики.

7.1-канальный звук

В дополнение к HD форматам, современные Blu-ray форматы поддерживают более детальное аудио. Большинство проигрывателей Blu-ray могут воспроизводить 7.1, и некоторые из них даже гарантируют отсутствие потерь звука при декодировании. Не смотря на то, что ваш проигрыватель и ресивер в состоянии расшифровать эти новые виды объемного звука, важно отметить, что не все диски записываются в подобных форматах. Поэтому при покупке Blu-Ray фильмов или видеоигр, проверяйте информацию о том, какие аудио кодеки использовались при записи информации, чтобы потом не разочаровываться в качестве звука. Подключить свой проигрыватель к ресиверу вы сможете, используя аналоговые или совместимые с HDMI 1.3 аудио выходы.

Сжатие без потерь

Новейшие форматы объемного звучания с высоким разрешением, Dolby TrueHD и DTS-HD Master Audio предлагают воспроизведение до 7.1 каналов аудио сигнала без потерь качества. Наряду с добавлением двух дополнительных тыловых каналов для стандартных форматов Dolby Digital и DTS, системы Dolby TrueHD и DTS-HD Master Audio закодированы с большим количеством информации в каналах. Фактически, качество этих форматов идентично исходным студийным записям. Улучшенная направленность звука и четкость эффектов, делают звук еще более реалистичным.

Дополнительные форматы с 7.1 раздельными каналами

Можно заметить, что некоторые Blu-ray диски кодируются с другими раздельными 7.1 объемными форматами. Например, Dolby Digital Plus от DTS и Dolby Laboratories, и DTS-HD (высокого разрешения). Эти форматы поставляют звук через 7.1 независимые каналы. Они обеспечивают более полный эффект присутствия, чем 5.1 Dolby Digital и DTS, но не без потерь, как, например, Dolby TrueHD и DTS-HD Master Audio. Ресиверы, которые поддерживают 7.1- канальные форматы без потерь звука, также могут воспроизводить Dolby Digital Plus и DTS-HD с высокой разрешающей способностью.

Матричное декодирование объемного звука для более старых источников

При использовании стерео аналогового подключения к ресиверу или подключении старого оборудования, такого как видеомагнитофон, преобразователь может использовать один из ниже перечисленных типов обработки для декодирования сигнала.

Dolby Pro Logic II включает в себя два независимых с полной пропускной способностью канала объемного звучания, три матричных тыловых канала и выделенный канал низких частот для сабвуфера. Многие последних моделей также поддерживают Pro Logic IIx обработку, которая может преобразовать аудио сигнал в 7.1.

Ресиверы с Dolby Pro Logic II и IIx могут дать дополнительную интенсивность тысячам фильмов на видеокассетах VHS и теле трансляциям, записанным в стерео формате или в 4-канальном Dolby Surround. Многие преобразователи также имеют специальные режимы, декодирующие стерео музыку в объемный звук.

DTS Neo : 6 в основном идентичен Pro Logic II - это просто способ обработки, разработанный компанией DTS для декодирования стерео аудио с двумя каналами в 5.1 или 6.1. И точно также, как Pro Logic II он обеспечивает эффект пространственного звучания.

Каналы "Height" для звуковой сцены

Некоторые ресиверы предлагают новый формат объемного звучания Dolby Pro Logic IIz . Он добавляет два канала «высоты» к вашей звуковой сцене. Эти динамики обычно монтируются на стене выше фронтальных левых и правых динамиков.

Ресивер с Pro Logic IIz может делить аудио сигнал на передние звуковые сцены. Он посылает направленный звук на ваши фронтальные динамики, а ненаправленный (фоновый шум, массовка, болельщики на стадионе) - на каналы «высоты».

Цифровая обработка сигнала DSP

Иногда производители ставят свои специализированные системы обработки, часто называемые цифровой обработкой сигнала DSP, в дополнение к поддержке остальных форматов. Многие домашние кинотеатры используют цифровую обработку сигнала для создания звуковой сцены (которая моделирует акустическую среду, например, концертный зал или стадион), и для точного управления многоканальной информацией саундтреков. Эта функция может называться по-разному, в зависимости от компании производителя. Называние этой функции можно найти в инструкции к применению вашего ресивера или домашнего кинотеатра.