Приложения

Приложение №1. Звук и слух


Природа звука

С точки зрения аэромеханики одиночная звуковая волна в какой-либо среде (воздух, вода и др.) представляет собой вырожденный случай ударной волны. Последняя представляет собой скачок уплотнения среды, т.е. повышение давления, плотности и температуры среды за фронтом скачка. Ударные волны возникают при взрывах, а также от пролетающих сверхзвуковых самолетов. Вырожденность звуковой волны как раз и означает, что плотность среды во время прохождения фронта изменяется на ничтожно малую относительную величину и возвращается в норму, т.е. ни о каком уплотнении или нагревании речи не идет.
В обычных условиях (давления, температуры, влажности) звук распространяется по воздуху со скоростью 330 м/сек.

Единицы громкости звука

Если бы речь шла об абсолютном значении давления, то применялись бы такие единицы как атмосфера, или Паскаль (Па). Школьный курс физики гласит, что один Па представляет собой давление в 1 Ньютон/м2, а нормальное атмосферное давление (среднее давление слоя атмосферы на уровне мирового океана) составляет 760 мм рт.ст. или 100 кПа.
Но звук изменяет (колеблет) давление на миллионные доли Паскаля! Поэтому для звука, как источника колебания давления, более подходящей единицей была бы микропаскаль (мкПа) – миллионная доля Паскаля.
Но и эта единица не является оптимальной. Дело в том, что слуха характерна логарифмическая чувствительность к перепаду давления. То есть для того чтобы громкость возросла в 2 раза, перепад давления нужно увеличить в 10 раз. В общем случае
Г2 / Г1 = 2 lg( dP2 / dP1 )

Где Г – громкости, dP – перепады давления.
Единица, измеряющая логарифм отношения, называется Белом. Для того чтобы числа получались в более привычном диапазоне используют в 10 раз более мелкую единицу – децибел (дБ). Далее, измеряемую абсолютную величину относят к некоторой выбираемой единице. В качестве такой единицы dP1 в акустике приняли средний порог слышимости человека, что составляет 20 мкПа.
Таким образом, акустический децибел не имеет размерности и обозначается как дБ SPL (дБ sound pressure level – децибел звукового давления). Очевидно, сам акустический порог слышимости dP1 составляет 0 дБ SPL, а
Г дБ SPL = 20 lg( dP / dP1 )

Ориентиры приведены в таблице:

 Звук Громкость дБ SPL
 Шелест листвы 15
 норма для тихого компьютера 35
 средняя громкость плеера 85
 в вагоне метро на перегоне 90
 неприятный громкий звук 95
 Отбойный молоток рядом 120
 Пушечный выстрел 130
 Старт космической ракеты 150

120 дБ SPL считается болевым порогом, т.е. звуки, превышающие такую громкость, приносят физическую боль.
Заметим, что длительное воздействие звуков громче 95 дБ повреждает слух. Особенно это относится к распространившейся привычке слушать аудио плеер в метро. В связи с этим интересно отметить, что в аудио плеерах Sony есть возможность ограничить громкость постоянным безопасным уровнем. Это называется там AVLS (Automatic Volume Limiter System). Соответствующий переключатель устанавливает громкость на средний уровень в 85 дБ независимо от положения громкости. Под этот уровень указывается также продолжительность работы плеера от батареек.
Еще интересный пример. Пусть в комнате тихо работает радиоприемник с громкостью 62 дБ и телевизор с громкостью 73 дБ. Тогда суммарный уровень громкости оказывается на удивление малым (предполагается, что в замеряемой точке пики амплитуд совпадают по фазе)
73.3 дБ = 10*lg( 10^(62/10) + 10^(73/10) )

Вообще когда есть два источника, то суммарная громкость увеличиться не более чем на 3 дБ относительно более громкого, а максимум достигается, когда громкости одинаковы.

Частота звука

Обычно звук от источника представляет собой не одиночную волну – хлопок (как в случае ударной волны), а непрерывную последовательность звуковых волн, в результате частота колебаний давления лежит в диапазоне 10-40'000 Гц. Однако слух человека далеко не совершенен (по сравнению со слухом другими млекопитающими) и для него звуковой диапазон – это 20-20'000 Гц.
Звук с частотой выше 20'000 Гц называется ультразвуком. Его слышат, например, собаки и существуют ультразвуковые свистки, позволяющие хозяину “неслышно” подзывать животное. Сильные источники ультразвука в 25 кГц включаются по ночам в продовольственных универмагах для отпугивания крыс.
Звук с частотой ниже 20 Гц называется инфразвуком. Несмотря на то, что он неслышим, мощный инфразвук способен вызвать аритмию сердца, а также быть причиной неосознанного беспокойства. Инфразвуком объясняют случаи, когда встречались безлюдные корабли на море: предполагают, что команда в ужасе выбросилась за борт от инфразвуков, создаваемых морем при волнении.
Реально звуковой диапазон составляет всего 40-16'000 Гц. Все современные музыкальные инструменты в поп- и рок-музыке играют именно в этом диапазоне (при этом в верхней части этого диапазона играют лишь некоторые музыкальные инструменты). Кроме того большинство жителей мегаполисов к 30 годам теряют способность слышать звуки выше16 кГц (в основном всилу шумового загрязнения среды).
Для аудио устройств бытового уровня считается приемлемым диапазон до 12'500 Гц. Для уверенной передачи речи нужно и того меньше: 300-3'400 Гц, что использовано в телефонный стандартах.
Чувствительность к частотам у человека не равномерная. Наиболее чувствительно ухо к диапазону 1-8 кГц, что учитывается при осреднении частотных характеристик (так называемое A-осреднениe).

Распознавание направлений

Несовершенство слуха человека особенно проявляется в области распознавания положения источника:

Распознаются источники в основном в горизонтальной плоскости, причем лучше с боков.
Распознаются источники в основном с частотой не меньше 10'000 Гц (так что безразлично где устанавливать сабвуфер, лишь бы не было отражений). В связи с этим для 3D звука годятся частоты дискретизации не ниже 22'500 Гц.

Приложение №2. Оцифровка звука


Здесь кратко приведены некоторые понятия, связанные с оцифровкой звука и его воспроизведением. Децифровкой назовем процесс, обратный оцифровке.

Оцифровка аналогового сигнала. Критерий Найквиста

Кодирование аналогового сигнала в цифровую форму называется его оцифровкой, а также аналогово-цифровым преобразованием (АЦП). Оцифровка осуществляется в общих чертах дискретизацией по времени и квантованием по уровню.
Пусть есть аналоговый монофонический сигнал в канале. Тогда он представляется некоторой скалярной функцией амплитуды от времени A(t).
До оцифровки:

Выбирается частота дискретизации (sample rate) fd. Обратная величина dt представляет собой шаг времени. Этот шаг определяет дискретные моменты времени ti (t0 + i*dt) в которые будут производиться замеры функции. Эти моменты называются еще отсчетами.
Выбирается метод кодирования значения функции (амплитуды сигнала). В простейшем случае это может быть просто округление значения до ближайшего из фиксированных уровней (квантование по уровню). Результат кодирования называется отсчетным значением.

В процессе оцифровки в отсчетные моменты измеряются и вычисляются отсчетные значения ai. В результате получается выборки (сэмплы) – набор пар (ti, ai), называемые дискретами. Набор дискретов и представляет собой оцифрованный из канала звук. При воспроизведении производится децифровка дискретов.

Критерий Найквиста

Для оцифровки звука (и вообще аналогового сигнала) большое значение имеет критерий Найквиста, который указывает минимальную частоту дискретизации.
Это математическая теорема рассматривает функции с финитным спектром, т.е. у которых частотные составляющие выше частоты (Omega) равны нулю. Таковы все звуковые сигналы с точки зрения слуха, а (Omega) = 20'000 Гц. Теорема утверждает, что для получения точных отсчетных значений аналогового сигнала, частоту дискретизации fd надо брать как минимум в 2 раз выше (Omega).
Замечания к критерию:

Критерий является следствием из теоремы Котельникова, которая в свою очередь представляет собой частный случай разложения функции в ряд Фурье.
Если бы функция была определена на бесконечном промежутке времени, то можно было бы восстановить и всю функцию. Но так как реально функция измеряется на конечном промежутке, то можно восстановить только отсчетные значения.


Частота дискретизации для звука

Здесь обсуждается частота дискретизации, применяемая при оцифровке звука. Для звукового диапазона (20-20'000 Гц) согласно критерию Найквиста:

частоту дискретизации нужно брать не меньше, чем 40'000 Гц, а реально несколько выше, чтобы избежать применение сложных фильтров (см. ниже). Чем выше fd, тем точнее оцифровка, однако, это также увеличивает размер звуковых файлов.
Перед оцифровкой звуковой сигнал нужно прогнать через фильтр (аналоговый), отрезающий все составляющие сигнала выше H – половины частоты дискретизации. Это актуально, т.к. реальный звуковой сигнал действительно содержит такие составляющие, вызванные наводками от различных электрических устройств. В противном случае эти составляющие попадут после оцифровки в диапазон [0,H], т.е. и в звуковой диапазон тоже. Такое наложение спектров называется алиасингом.

Последняя рекомендация имеет важные последствия. Аналоговый фильтр устроен так, что имеет некоторую переходную полосу частот. На меньшей границе подавление только начинается и равно нулю, к большей границе подавление нарастает и на самой границе достигается полное подавление.
Левая граница для фильтра должна начинаться с 20'000 Гц, а правая, согласно теореме, должна совпадать с половиной частоты дискретизации. Чем больше эта частота, тем больше переходная полоса и тем проще реализовать фильтр. Фильтр с узкой переходной полосой очень сложно реализовать. Компромиссом является частота 44.1 кГц, определенная в стандарте CD-DA для аудио треков на CD дисках. В аудио на PC основной является частота 48 кГц, которая вошла в спецификацию AC'97 (на частоте 48 мГц работает внутренняя шина AC-link). Эту частоту используют также аудио на DVD и цифровые магнитофоны (DAT).
При оцифровке речи обычно применяют монофоническую запись на более низких частотах: 22.05, 24 и 32 кГц.
Заметим, еще, что за счет переходной полосы в оцифрованный сигнал попадут составляющие сигнала в этой полосе. Поэтому после оцифровки сигнал надо пропускать через цифровые фильтры, отрезающие эти составляющие.

Метод PCM. Разрядность оцифровки

Метод PCM
Метод оцифровки PCM (Pulse Code Modulation, линейная импульсно-кодовая модуляция) является основным в Windows и методически важным для понимания. Разработан компанией Sony для звуковых треков CD-DA на CD.
В PCM для квантования амплитуды используется обычная линейная шкала с ограниченным числом уровней, что иллюстрируется следующим рисунком.

Этот график эффективнее смотрится в виде столбчатой диаграммы (рисунок ниже), но надо понимать, что у полученной ступенчатой (и любой другой) функции вертикальных отрезков быть не может.

Недостатком метода являются большие относительные погрешности для тихих звуков.

Разрядность оцифровки PCM
Число уровней может быть очень велико, так что удобнее иметь дело с разрядностью: число уровней равно степени двойки от разрядности. Так N=8 разрядам соответствует 256 уровней. Разряды представляют собой биты, так что вместо 8-разрядного звука можно говорить о 8-битном.
Понятно, что чем выше разрядность, тем точнее кодируется отсчетные значения. В стандарте CD-DA определено 16 разрядов. Это же верно для стандартных WAV-PCM файлов в Windows.

Шумы квантования. Передискретизация, пересэмплирование
При квантовании вносятся ошибки (подобные ошибкам округления), которые называются шумом квантования (quantization noise). Округление приводит, например, к тому, что тихие звуки вообще обнуляются. Шум квантования имеет природу белого шума, т.е. его спектр имеет равномерное распределение в диапазоне [0,H].
Минимальная относительная ошибка округления в методе PCM представляет собой отношение наименьшего квантованного значения к наибольшему. Обратную величину называют SNR (отношение сигнал / цифровой шум). Она представляет собой отношение самого громкого и самого тихого из возможных звуков (иными словами динамический диапазон). Для того чтобы не оперировать большими числами SNR принято выражать в децибелах. Для метода PCM (примененного к синусоидальному сигналу) справедлива линейная зависимостью между SNR и разрядностью N (теорема Шеннона):

SNR оцифровки = (C1*N + C2), где
C1 = 20 log(2) =~ 6.02
C2 = 20 log(sqrt(3/2)) =~ 1.76

Константы указаны для частоты 48 кГц. Эта формула имеет большое теоретическое значение. Из нее следует, что разрядность в 16 бит обеспечивает прекрасный динамический диапазон в 96 дБ. На практике SNR бывают ниже и тогда говорят об эффективной разрядности (рассчитанной по этой формуле). Так, если кодер дает интегральные значения SNR в пределах 75-80 дБ, то он является эффективно 13-14 битным (14 * 6 = 84).
В основу формулы кладется частота Найквиста. При удвоении этой частоты происходит снижение уровня шума на 3 дБ, при учетверении – на 6 дБ и т.д. Поэтому в профессиональной аппаратуре применяются частоты дискретизации 96 кГц и выше.
Заметим, что для несинусоидального сигнала коэффициент С2 может принимать значение в диапазоне [-15, +2] дБ, причем для типичных музыкальных и речевых сигналов этот коэффициент, к сожалению, принимает значение вблизи нижней границы диапазона, т.е. –15.

Передискретизация, пересэмплирование
Передискретизация (oversampling, оверсэмплинг) – использование повышенной частоты (по сравнению с частотой хранения) для уменьшения шумов оцифровки. Передискретизация используется как при записи, так и при воспроизведении.
При оцифровке АЦП работает на повышенной частоте, и отсчеты на частоте хранения получаются интерполяцией из отсчетов на повышенной.
При децифровке ЦАП работает на повышенной частоте, и отсчеты для него получаются интерполяцией из отсчетов на частоте хранения.
Поэтому при передискретизации также полезно иметь большее число бит, по сравнению с исходным материалом, чтобы точнее выполнить интерполяцию.
Второе значение термина передискретизация связано с методами оцифровки, которые используют малое число разрядов и высокую (в десятки раз выше 40 кГц) частоту дискретизации, например однобитное кодирование с передискретизацией. Подробнее чуть ниже.
Преобразование к другой частоте часто происходит, например, перед передачей по шине AC-Link, “признающей” в большинстве случаев только 48 кГц. В этих и других случаях интерполяцию полезно производить с большим числом разрядов. В общем случае, когда изменяется и частота и разрядность, говорят о пересэмплировании.

О 18 и большей разрядности

Как следует из предыдущего подпункта, 16-разрядный звук в идеале дает прекрасный динамический диапазон 98 дБ, что близко к пределу возможностей слуха. Однако мэйнстрим 18- и даже 20-разрядные кодеки дают эффективно лишь 14-разрядный звук. Кроме того, мэйнстрим карты могут писать (на диск) только 16-разрядный звук. И это притом, что шина AC-Link допускает передачу 20-разрядных звуковых потоков. Стандартные софтовые кодеки из Windows допускает только 8 и 16 разрядов у WAV-PCM файлов (продвинутые звуковые редакторы обходят это ограничение, однако нужна поддержка со стороны драйвера карты).
Высокая разрядность полезна при внутренней цифровой обработке звука контроллером. Например, позволяет избежать переполнения при смешении сигналов. В частности, при записи иногда применяют дизеринг, что эквивалентно добавлению сигнала. При многоканальном воспроизведении, например три 3 синусоиды с уровнем сигнала –3 дБ также дадут переполнение (два сигнала одинаковой громкости увеличивают громкость суммарного на 3 дБ). Кроме того, часто производится пересэмплирование (как при микшировании, так и перед тем, как пропустить поток через шину AC-Link). Поэтому внутренние вычисления проводятся с большим числом разрядов, а при записи производится округление до 16.
Профессиональные (не AC'97) карты умеют записывать 20- и 24-разрядный звук.

Однобитные методы с передискретизацией

Метод оцифровки PCM имеет большое методическое значение, однако, он имеет существенные минусы, рассмотренные чуть ниже. Поэтому современные АЦП используют другие, более совершенные методы, а PCM используется как формат хранения (например, в CD-DA и большинстве WAV-файлах). Кроме того, в таком виде предписано аудио контроллеру в AC'97 принимать и передавать звук через порты. Поэтому на заключительной стадии оцифровки применяется конвертация в PCM.
Упомянем о двух минусах PCM, которые лежат на поверхности:

Большая ошибка оцифровки для тихих звуков (ниже 55 дБ). Звукорежиссеры употребляют такие эпитеты неестественности звуков: жестяный, безжизненный, тусклый.
Медлительность. Действительно, выбор уровня квантования представляет собой по сути метод последовательных приближений, где за каждый шаг вычисляется бит одного разряда, начиная со старших. Эта процедура похожа на взвешивание предмета на рычажных весах путем подбора гирек. Чем больше разрядность кодека, тем дольше подбирается уровень.

Первый минус устраняют так называемые дельта-методы, в которых кодируется не амплитуда, а ее разность с предыдущим значением. В пределе метод должен быть однобитным. В этом случае ошибка округления равномерна для всех значений амплитуды. Выбор однобитного метода устраняет и второй минус – методы получаются очень быстрыми.
Для того чтобы метод сохранил точность надо поднимать частоту оцифровки. Вспомним, что уменьшение одного разряда точность падает примерно на 6 дБ. Это можно точно компенсировать поднятием частоты в 4 раза. Итак, чтобы достичь точности 16-разрядного PCM частоту надо поднять в 4*16 = 56 раз. На самом деле применяют частоту, большую в 64-256 раз. Столь высокие частоты связывают с термином передискретизация, а методы называют однобитные с передискретизацией.
Рассмотрим наиболее популярный представитель таких методов – дельта-сигма модуляцию. Его суть хорошо отражает название. Дельта означат, что анализируется разница между текущим значением сигнала и предыдущим. Если разность положительна, то компаратор выдает 1, иначе – 0. Эти значения и сохраняются. Сигма (знак суммы) означает, что для получения оцифрованного значения амплитуды надо просуммировать запомненные значения.
Другим огромным плюсом метода является возможность резко уменьшить шумы квантования посредством цифрового фильтра. Действительно, рассмотрим два метода оцифровки с одинаковой точностью, один с частотой дискретизации 2H , а второй – с утроенной (6H). Вспомним, что шум квантования имеет равномерное распределение в диапазоне [0,H]. Так как точность одинакова, то энергия этого шума постоянна в диапазоне [0,H]. Энергия пропорциональна квадрату амплитуды и представлена площадью прямоугольника на рисунке. Для высокой частоты дискретизации плотность шума будет в 3 раза меньше. Так как спектр содержательного сигнала содержится в [0,H], то нужно просто применить цифровой фильтр, подавляющий сигнал вне этого диапазона. В результате энергия шумов оцифровки для утроенной частоты будет в 3 раза меньше, что представлено закрашенным прямоугольником.

Поэтому в однобитные кодеры с передискретизацией наряду с АЦП встраиваются цифровые фильтры. Отсюда также видно, что прореживание к меньшей частоте будет более качественное, чем к большей.
В более дорогих кодерах может применяться также нойз шейпинг – виртуальный метод понижения шума.
Конечный блок кодера преобразует код в PCM (суммированием), что называется для таких методов прореживанием (decimation) отсчетов, т.е. уменьшением частоты дискретизации.
Нетрудно видеть, что преобразование в PCM привносит дополнительные ошибки. Как лишнее звено это преобразование в PCM устранено в SACD (см. Глоссарий) – новом формате аудио на DVD дисках.

Приложение №3. Электрические параметры качества аудио трактов


Аудио тракт можно мыслить как некоторый преобразователь сигнала, имеющий вход и выход. Примером является усилитель. Параметры качества показывают насколько искажается входной сигнал на выходе (естественно, линейное усиление рассматривается не как искажение, а как изменение масштаба). Заметим, что в тракт могут входить кодер и декодер, так что на одном конце сигнал может быть аналоговым, а на другом – цифровым.
Эти параметры важны, так как именно они определяют класс аппаратуры: бытовой, Hi-Fi и Hi-End.
Ниже параметры определены так, как это принято в компьютерном аудио.

Аудио тракты звукового адаптера и кодека

В отличие, например, от усилителя, у которого только один тракт (вход-выход), у звукового адаптера и его кодека их несколько.

Тракты звукового адаптера
Основные тракты:

A-A. Аналоговый сигнал подается на линейный вход и тут же заворачивается на линейный выход (преобразование в цифру не происходит). Тракт используется, например, при проигрывании аудио компакт-дисков при подаче сигнала на карту по аналоговому кабелю.
PC-D-A. Тракт цифрового воспроизведения. В типичном случае звуковой файл проигрывается на линейный выход.
A-D-PC. Тракт цифровой записи. Аналоговый сигнал подается на линейный вход, оцифровывается и записывается на диск или в память).

Петлевые тракты:

A-D-PC-D-A. Аналоговый сигнал подается на линейный вход, проходит полную петлю и выводится на линейный выход.
PC-D-A-D-PC. Сигнал подается с компьютера проходит полную петлю и поступает опять на компьютер.

Следует заметить, что “полные петли” дают примерно то же самое качество, что и тракт на запись, так как этот тракт обычно заметно уступает по качеству тракту на воспроизведение.

Тракты аудио кодека
Эти тракты лежат целиком внутри кодека. Некоторые кодеки умеют коммутировать кодер на декодер, что используется для измерения параметров самих кодеков.

A-A. Аналоговый сигнал подается на линейный вход кодека и тут же заворачивается на линейный выход кодека. Этот тракт короче, чем в случае адаптера, так как сигнал не проходит еще через операционный усилитель. Тракт организуется аналоговым микшером внутри кодека.
D-A. Цифровой сигнал от интерфейса шины AC-Link (или I2S) проходит через ЦАП на линейный выход. Определяет качество воспроизведения.
A-D. Сигнал подается на линейный вход кодека, проходит через АЦП и передается на интерфейс шины AC-Link (или I2S).

По традиции качество (главным показателем которого является DR) тракта воспроизведения D-A лучше, чем тракта записи A-D даже у кодеков с одинаковой разрядностью на запись и воспроизведение.

АЧХ

Амплитудно-частотная характеристика (АЧХ) – кривая, показывающая равномерность передачи сигнала в тракте на всех частотах звукового диапазона.
АЧХ получают путем серии измерений, когда на вход подается синусоидальное колебание разных частот (с мелким шагом) но с одинаковыми амплитудами, а затем амплитуды выходного сигнала относят к амплитуде выходного сигнала на частоте 997 Гц (эта амплитуда и принимается за масштабную единицу). Отношение выводится в логарифмическом масштабе (логарифм отношения).
В идеале АЧХ должна быть горизонтальным отрезком, лежащим на уровне 0 дБ. Реально представляет собой кривую в мелких зубчиках похожую на кардиограмму и обязательно имеющую “завалы” на концах.

АЧХ может сказать о многом (ее даже изображали на некоторых советских колонках). Предварительно заметим, что частоты разделяются так:

низкие, басы (bass): 20-150 Гц
средние (midrange): 150-8000 Гц
высокие (high): 8000-20000 Гц.

На наиболее восприимчивых частотах важно оказывается даже не только наличие, но и положение впадин и пиков на АЧХ. И хорошее воспроизведение одних инструментов / музыкального жанра при данной АЧХ вовсе не гарантирует такого же результата для других инструментов / музыкального жанра. Неравномерности в высоких частотах воспринимаются как невнятность и неразборчивость.
Заметим, что для аналогово-цифровых трактов их АЧХ (типа A-D-PC) получается лучше при частоте оцифровки 48 кГц, чем при 44.1 кГц, т.к. шумы квантования меньше.

FR – частотный диапазон равномерности воспроизведения

Невозможность представить график АЧХ в текстовой спецификации приводит к тому, что вместо нее приводится только ее “выжимка” – диапазон равномерности воспроизводимых частот (Frequency Range, FR) аналогового тракта. Этот частотный диапазон определяется теми граничными частотами, где кривая АЧХ выходит за полосу допустимых отклонений (в ±1 дБ или ±3 дБ), например, 35-18'000 Гц. Уровень обычно указывается так:
FR (±3 дБ) = 35-18'000 Гц

а если он опускается, то предполагается ±3 дБ.

Очевидно, что чем шире этот диапазон, тем лучше, но также ясно, что он несет существенно меньшую информацию, чем АЧХ. Учитывая, что 3 дБ означает изменение громкости в 2 раза, то можно диапазон равномерности воспроизведения понимать как диапазон, на котором любые частоты сигнала искажаются по уровню громкости не более чем в 2 раза.
Для звукового адаптера FR зависит от частоты оцифровки. Для 48 кГц он естественно лучше и обычно покрывает весь диапазон слышимости, а для 44.1 кГц составляет 20-18'000 кГц.

Коэффициент нелинейных искажений THD и THD+N

THD
Если подать на вход устройство чистую синусоиду, то на выходе, наряду с ней появятся также ложные кратные гармоники. Это неизбежно, нужно только, чтобы эти побочные гармоники были достаточно малы. Ложные гармоники изменяют тембр, а значит и узнаваемость звука.
Параметр THD выражает относительную величину этих искажений и вычисляется так. На вход подается синусоида с частотой 997 Гц (это наиболее воспринимаемая слухом частота) с амплитудой -3 дБ FS. В этом случае гармонические искажения близки к максимальным, а нелинейный режим еще не наступает. Вычисляют RMS амплитуд ложных гармоник на звуковом диапазоне и относят ее к амплитуде выходной основной гармоники. Это частное, выраженное в процентах, и называется коэффициентом нелинейных искажений. Англоязычный эквивалент – Total Harmonic Distortion (общие гармонические искажения; это более понятно, так как не притягивается за уши “нелинейность”).
Естественно, чем меньше коэффициент THD, тем лучше. Ориентировочные границы для звуковых карт (выходной тракт PC-D-A):

0.1% и выше – бытовой уровень;
0.01% – Hi-Fi;
0.003% и ниже – Hi-End.

Интересно, что THD ниже 0.001% не воспринимается человеком. Заметим, что к акустическим устройствам требования на порядок-два ниже.

Особенности о ламповых усилителей
Приведенные выше ориентировочные границы THD относятся к распространенному случаю транзисторных усилителей. Для ламповых усилителей, которые до сих пор предпочитают некоторые аудиофилы, коэффициент THD может достигать и 1-3%, тем не менее, звук будет лучше. Все дело в быстром (экспоненциальном) спаде амплитуд кратных гармоник. Иначе говоря, значимы только первые несколько кратных гармоник, а гармоники с более высокой частотой исчезающе малы. Такие искажения “нравятся” уху. Для транзисторных усилителей характерно медленное (обратно пропорциональное) спадание амплитуд гармоник искажений, так что все привносимые гармоники “засоряют” звук. Поэтому THD для транзисторных усилителей должен быть как можно меньше, и достичь это труднее.

THD+N
Уху все равно, чем обусловлены искажения, шумом или побочными гармониками. Поэтому чаще используют более реалистичный чем THD параметр тракта, который выражает собой сумму THD и относительной величины шума в присутствии сигнала. Называется этот параметр Total Harmonic Distortion plus Noise (коэффициент нелинейных искажений плюс шум) и обозначается THD+N. Как и THD выражается в процентах.
Для измерения на вход подается синусоида с частотой 997 Гц. Так как шум не зависит от уровня сигнала, то надо договориться о величине последнего. Подбирают такую входную амплитуду, чтобы амплитуда основной выходной синусоиды была всего на 3 дБ меньше максимального FS. Это обозначается как -3 дБ FS. В этом случае гармонические искажения близки к максимальным, а нелинейный режим еще не наступает. А-взвешивание не применяют, так как на больших громкостях это не надо (кривая чувствительности здесь плоская). Производят измерения и вычисление RMS амплитуды искажений в звуковом диапазоне (выходного сигнала за вычетом основной выходной синусоиды) и результат относят к FS (а не -3 дБ FS). Таким образом, в отличие от THD, учитывается весь шум, а не только кратные гармоники (а измерения производятся проще, т.к. нужно просто исключить основной сигнал).
Результат можно также пересчитать проценты в дБ FS по формуле:

X дБ = 20 lg(X % / 100)

Согласно ей

1% = -40 дБ
0.1% = -60 дБ
0.01% = -80 дБ


Динамический диапазон DR
Динамический диапазон (Dynamic Range, DR) описывает диапазон громкостей воспроизводимых сигналов, а именно отношение (мощностей) самого громкого и самого тихого выходных сигналов тракта. Чем больше это значение, тем точнее будет воспроизведение, особенно для классической музыки. Так как самым тихим сигналом является шум, но в присутствии сигнала, поэтому именно шум является минимальным сигналом.
Поэтому динамический диапазон измеряется так: на вход подается довольно слабая синусоида частотой 997 Гц, которая создает выходную синусоиду амплитудой -60 дБ FS. Дело в том, что при небольшом уровне сигнала гармонические искажения линейно зависят от сигнала, а уровень -60 дБ FS гарантированно лежит в этом линейном участке.
Для такого сигнала измеряется величина шума в виде А-взвешенное THD+N, т.е. ложные гармоники (а они очень малы) включаются в шум. Результат относят к FS, выражают в процентах (умножая на 100) и пересчитывают в дБ FS A (по формуле предыдущего пункта). Пример:
DR = 85 дБ FS A

Можно сразу посчитать в дБ FS А
DR = 20 * lg(An/FS) дБ FS А

где An – А-взвешенное THD+N. Множитель 20 пересчитывает в децибелы и дает возможность заменить мощность на амплитуду, аббревиатура FS означает Full Scale, А – А-осреднение (A-weighting см.).
Если сравнить определение DR с SNR (см. ниже), то можно сказать, что DR является “SNR в присутствии сигнала”, т.е. шум измеряется в присутствии сигнала (хотя и тихого) а не при отсутствии его. Видно, что DR более реалистичен и сейчас чаще используют именно его вместо SNR. Типичные значения DR такие же, как у SNR (см.).

Отношение сигнал / шум SNR

Любой аудио тракт неизбежно вносит собственные шумы. Яркое проявление шума – гул и шипение в колонках при отсутствии сигнала. По определению шум не зависит от уровня сигнала (создается внутренними цепями).
Чем меньше (собственный) шум, тем выше качество тракта. Количественной характеристикой является отношение (мощностей) сигнала к шуму. В англоязычной литературе обозначается как Signal/Noise Ratio, S/N, SNR. Этот параметр определяется и измеряется так. На вход подается синусоида частотой 997 Гц, а амплитуда подбирается так, чтобы выходной сигнал был максимальным (Full Scale).
Измеряется FS. Затем на вход ничего не подается, измеряются амплитуды шумов в звуковом диапазоне, и вычисляется An – А-взвешенное RMS амплитуды шума (в отсутствии сигнала). Теперь:
SNR = 20 * lg(An/FS) дБ FS А

Чем больше SNR, тем лучше. Вот ориентировочные значения:

75 дБ – бытовой уровень;
85-90 дБ – Hi-Fi;
96 дБ и выше относятся к Hi-End и уже не различается на слух.

Так как максимальный уровень редко используется, то при обычной громкости SNR будет хуже примерно на 3 дБ (кроме того, максимальный сигнал не удобен для измерения).
Для тракта, начинающегося и заканчивающегося цифрой, например, PC-D-A-D-PC на вход сначала подают максимально возможную оцифрованную синусоиду (для 16-ти разрядов ee амплитуда 32767), измеряют ее RMS (среднее квадратичное) для серии отсчетов, затем измеряют RMS оцифрованного шума и используют эти значения для вычисления SNR.
Так как SNR определяется и измеряется в отсутствии сигнала, что не реалистично, то интереснее его усовершенствованный аналог DR (см.).

Разделение каналов

Разделение каналов (Crosstalk Between Signal Channals) в многоканальной системе – параметр, показывающий меру проникновения сигнала из одного канала в другой. В идеале каналы должны быть полностью разделены. По определению коэффициент равен отношению в децибелах амплитуды наведенного сигнала в другом канале к амплитуде выходного сигнала.
Чем меньше коэффициент, тем лучше. Критическим значением является -50 дБ. При худших значениях ослабляется стерео эффект. Отличным считается коэффициент -75 дБ.
Для измерения на вход одного канала подается синусоида на частоте 10 кГц с амплитудой -20 дБ FS. На выходе этого канала измеряется амплитуда, а на выходе другого канала – наведенный сигнал на входной частоте.
Заметим, что эти искажения характерны только для аналоговых участков трактов.

Частотная точность

Сохранение частоты сигнала (Frequency Accuracy) играет большое значение для верности записи и воспроизведения музыки.
Для тракта записи (A-D-PC), например, оцифровывается на выбранной частоте дискретизации (44.1 кГц) эталонная синусоида с частотой 997 Гц. Затем этот файл проигрывается на эталонной системе (у которой частота дискретизации точна) и измеряется погрешность частоты (относительно 997 Гц), которую выражают в процентах. Аналогичный параметр измеряется и для тракта воспроизведения (PC-D-A).
Стандартным значением является отклонение в 0.1 %.

Приложение №4. Основы MIDI


Введение

MIDI переводится как Musical Instrument Digital Interface – интерфейс цифровых музыкальных инструментов и представляет собой сетевой протокол для связи цифровых музыкальных инструментов (составляющих оркестр) с синтезатором звука. Протокол создан ведущими производителями цифровых музыкальных инструментов – компаниями Korg, Roland, Yamaha и др.
Когда музыкант играет на цифровом музыкальном инструменте, то последний посылает на синтезатор команды (сообщения в терминологии MIDI) с номером инструмента, нотой и ее характеристиками (длительность, громкость и др.). Синтезатор же озвучивает поток MIDI команд. Протокол является однонаправленным, асинхронным, с потоком 31.25 кбит/сек.
Один физический канал разбит на логические каналы (идентифицируемые соответствующим полем в заголовке пакета сообщения).
В компьютере поток MIDI-сообщений хранится в MIDI файле, логически представляющим собой партитуру музыкального произведения. Стандартной возможностью звукового адаптера является наличие блока MIDI синтезатора. Он преобразует MIDI поток из MIDI файла в PCM поток.
Достоинством MIDI файлов является их компактность. Так, минута PCM файла с хорошим качеством занимает 10 М, а минута MIDI того же качества – только 10 К. Это используется в играх и других приложениях вместо традиционных WAV файлов. Кроме того, MIDI файлы легко редактировать.
В настоящее время основным видом MIDI синтеза является волновой, причем Audio PC'99 рекомендует его аппаратную реализацию.

Основные понятия MIDI

Тон – звук, издаваемый музыкальным инструментом.
Голос (а также тембр, timbre) – нота, воспроизводимая музыкальным инструментом. Инструменты бывают одноголосые и многоголосые – позволяющие брать аккорды, например, аккордеон, а также мелодическими (melodic) и ударными (percussive). Ударный инструмент является одноголосым. Тон многоголосого инструмента может, таким образом, состоять из нескольких голосов.
Полифония (многоголосие, многотембровость, multi-timbral) – воспроизведение синтезатором одновременно несколько голосов. Максимальное число таких голосов (обычно говорят просто о числе голосов) и является основным параметрам синтезатора, и даже часто включается в название звуковой карты.
Очевидно, в силу многоголосости, число одновременно звучащих тонов не превосходит числа голосов.
По стандарту GM1 должно быть не менее 24 голосов, но современные карты воспроизводят до 1024 голосов (большинство программно).
MIDI канал – логический канал для связи синтезатора с инструментом (или даже несколькими инструментами). В каждый момент времени канал может передавать один мелодический инструмент или несколько ударных инструментов (за счет того, что их звучание короткое). В процессе проигрыша инструменты могут динамически заменяться. Число каналов определяется используемым стандартом MIDI. Ограничение на число каналов, связывающих MIDI оркестр с синтезатором,
Stage envelopes –фазы огибающей (во времени). Фазы изменения амплитуды извлекаемой ноты во времени. Например, для ноты рояля можно выделить 4 стадии (последняя фаза Release соответствует отпусканию клавиши).

Число фаз огибающей является также параметром совершенства синтезатора. Развитые синтезаторы являются 6- или даже 8-фазовыми.

Основные эффекты MIDI

Эффекты – изменение звучание инструментов для придания большей выразительности. Наиболее известные эффекты:

хорус (chorus)
позволяет воспроизводить одиночный голос как хор. Реализуется повторением звука с небольшими задержками.
реверберация (reverb – послезвучание)
эффект зала, многократное отражения исходного звука от стен зала с затуханием амплитуды. Отличается от эха тем, что послезвучание начинается раньше и продолжается дольше. Эффект реализуется повторениями звука с убывающими амплитудами.

Среди других:

фланжер (flanger – кромка)
MIDI эффект, аналогичный звуку пролетающего над головой самолета, т.е. с нарастанием и затуханием громкости. Столь необычное название получил из-за того, что вначале его реализовывали торможением рукой за край катушки магнитофона.
decay (заглушение звука)
позволяет взять короткую ноту, подобно тому, как гитарная струна “успокаивается” прикосновением руки.
эхо (echo)
эффект повторения звука (с меньшей громкостью), с достаточной задержкой, чтобы имитировать большие пространства. См. еще реверберация.
pitch shift
сдвиг тона на несколько октав.
Каждый эффект может иметь еще десятки вариаций. Собственно эти эффекты могут применяться не только в MIDI.


Стандарты MIDI

Процесс развития MIDI закреплен в последовательно расширяемых стандартах. Их принимает ассоциация MMA (MIDI Manufacturers Association), которой принадлежит марка MIDI и сайт www.midi.org. Кроме того, существуют и фирменные стандарты. Ниже стандарты приводятся в хронологическом порядке. Суть стандартов заключена в составе инструментов, таблице их номеров, управление звучанием (задание времени атаки, наложение эффектов и др.).

MAA General MIDI System Level 1 (GM1)
Стандарт, утвержденный ассоциацией MMA в 1991 г. Его целью было установить нижнюю планку MIDI. В нем определены:

Инструменты: 128 мелодических и 47 ударных (собранных в группы по 8, например, все типы гитар: с нейлоновыми струнами, стальными и т.д.).
Таблица соответствия инструментов их номерам (MIDI Key) в MIDI сообщении (Instrument Patch Map)
Полифония: минимум 24 голоса.
MIDI каналы: 16 , причем все ударные выводятся через 1 канал.
Ударные: выводятся по 10-му каналу.
Эффекты: не предусмотрены (но и не запрещены).


Roland General Synth (GS)
Фирменное расширение GM1, разработанное компанией Roland в 1991 г. Отличия:

Инструменты: 226 мелодических и 46 ударных. Понятие инструмента стало абстрактным: сюда включены скрипящая дверь, мотор автомобиля и др.
MIDI каналы: 32.
Эффекты: одновременно 2 общих эффекта для всех инструментов, но допускаются индивидуальные настройки для каждого. Обычно это хорус и реверберация.


Yamaha Extended General (XG)
Фирменное расширение GM1, разработанное компанией Yamaha в 1995 г. и превосходящее GS. Отличия:

Инструменты: 640 мелодических и 21 наборов ударных. Качественное отличие от предыдущих версий заключается в том, что впервые появилась возможность управлять нарастанием / затуханием и другими тонкими параметрами звука, что вплотную приближает к реалистичному звучанию. Предусмотрено дальнейшее расширение всех параметров.
Эффекты: одновременно 3 общих эффекта для всех инструментов. Два из 64 доступны для всех воспроизводимых инструментов, а третий из 42 – лишь одному выбранному инструменту.


MAA General MIDI Level 2 (GM2)
Это расширение стандарта GM1, принятое ассоциацией MMA в 1998 г. В нем полифония увеличилась до 32 голосов, ударные выводятся уже через 2 канала, введено расширенное управление звучанием, добавлены эффекты и многое другое.

Волновой синтез

В настоящее время этот метод является основным.

Понятие WT-синтеза
Волновой синтез, он же синтез по таблице волн, он же WT-синтез (WT – Wave Table, таблица волн) основан на проигрыше оцифровок сэмплов (образцов) звучания реальных музыкальных инструментов. Сэмплы организованы в таблицу, откуда название Wave Table.
WT-синтез на различных картах может звучать по-разному как за счет различия синтезаторов, так и из-за не стандартизованных параметров типа тембра и громкости.

Качество WT и ее размер
Качество таблицы сильно зависит от того, как она составлена:

Качество оцифровки: разрядность (14, 16, 18 бит и т.д.) и частота оцифровки сэмплов.
Полнота сэмпла: для экономии места сэмпл может включает не полный звук, а только атаку (нарастания звучания в начальной фазе), и кусочек постоянного уровня, который потом циклически проигрывается для получения большой протяженности.
Вариации сэмпла: можно включать в таблицу не одно, а целое семейство звучаний одного инструмента, соответствующее резкому и мягкому извлечению звука и т.д.
Полнота высот голоса: для получения произвольной ноты ее получают комбинацией из нескольких запомненных, которые проигрываются с различной скоростью. Чем больше таких базовых нот, тем точнее синтез небазовых. Обычно ограничиваются 5-6 нотами.

Очевидно, параметрами таблицы являются ее размер, тип MIDI, параметры качества и др.
Любопытно оценить размер WT. Одна секунда звучания сэмпла при частоте 48 кГц и разрядности в 16 бит займет 48000*2 = 96000 байтов = 94 Кбайтов. Для 128 инструментов получится 11.75 Мбайта. Для большей точности нужно 4 секунды звучания и несколько сэмплов на один инструмент. В результате приходим к банкам, размером в CD диск. Даже с учетом хранения со сжатием, очевидно, что таблица размером в 2 Мбайта не может быть очень качественной. Поэтому для профессиональных целей используют гигабайтные банки (как в NemeSys GigaSampler).

Банк инструментов
Волновая таблица в виде файла называется банком инструментов (patch set, wave set). Банк загружается в основную память компьютера или с жесткого диска или с CD (выделяется не более половины основной памяти).
Звуковая карта уже укомплектована банком на CD-ROM, а новые берутся с дополнительно приобретаемых CD-ROM или скачиваются из Интернета.

Технология Downloadable Sounds (DLS)

Эта технология, разработанная под эгидой ассоциации MMA, является развитием технологии MIDI и особенно привлекательна для компьютерного применения. Она основывается на табличном синтезе и снимает следующие недостатки MIDI:

Используется фиксированный набор инструментов (например, 128 в GM1).
MIDI файл может звучать совершенно по-разному на различных звуковых адаптерах.

Спецификация DLS Level 1 утверждена в 1997 г. и развивает GM1 в следующем:

Обеспечивается одинаковое звучание на различных синтезаторах (устранена неопределенность) и точное следование заданному темпу (временным меткам), что важно для ритмической музыки. Соответственно DLS сообщение несет гораздо более полную информацию о ноте, чем MIDI (громкость, скорость, экспрессия, эффекты, октава и др.). Вместе с тем поддерживаются и GM1 файлы.
Номерам из 128 инструментов можно динамически ставить в соответствие любой инструмент (называемый “загружаемым”, откуда название). Музыка обретает, тем самым, интерактивность. Внутри каждого номера существует еще 32 вариации инструмента. Все это дает практически неограниченный набор инструментов.
В качестве добавляемых сэмплов можно брать произвольные WAV файлы и импортировать их в формат DLS файлов. Так, можно назначить рев динозавра в качестве ноты добавленного инструмента. Это резко расширяет возможности для разработчиков игр и презентаций.
Допускается сжатие сэмплов.
DLS является унифицированным форматом MIDI банков (файлы имеют тип DLS), так что любой DLS банк можно загружать в любую карту, не конвертируя. До этого форматы MIDI банков были не стандартизованы, и в ходу было большое число несовместимых форматов от разных производителей.

DLS банк представляет один или несколько DLS инструментов. Каждый инструмент в таком банке представляется несколькими “регионами”, а каждый “регион” представляет собой ноту: указатель на WAV сэмпл внутри того же файла и информацию как его проигрывать (заметим, что один и тот же WAV сэмпл может использоваться разными инструментами). “Артикулярная” информация (как проигрывается сэмпл) может относиться как к отдельной ноте, так и ко всему инструменту.
Минимальная частота оцифровки определена в 22.05 кГц, а разрядность 8 или 16. Минимальная полифония – 24 голоса.
В 1998 г. утверждена версия DLS Level 2 (DLS2). Формат DLS2 банков является расширением DLS1. В качестве импортируемых сэмплов могут быть файлы формата MPEG-4. Допускаются также банки формата SoundFont 2.1 (SF2), известные своим высоким качеством (16 бит, 48 кГц, стерео).
Заметим, что уже в Microsoft DirectX 8.0 введена поддержка DLS2 синтезатора и была его программная реализация с DLS банком размером 3.3 М. |тпт банк представляет собой сконвертированный GS банк от Roland 1996 г. с 16-битными сэмплами, 226 мелодическими и 9 ударными инструментами.

MS DirectMusic

Это компонента DirectX (в версии DirectX 8.0 входит в состав DirectX Audio). Позволяет проигрывать MIDI-сообщения из MIDI файлов или сегментов, созданных в приложении DirectMusic Producer, динамически их обрабатывая, как обычные WAV аудио потоки. Это дает возможность накладывать эффекты, управлять громкостью и т.д. Это дает разработчикам игр мощные средства использования MIDI. Поддерживаются DLS MIDI банки.
Если звуковой адаптер поддерживает аппаратное ускорение DirectMusic, то это увеличивает его потребительские свойства у любителей игр. Использование аппаратного ускорения возможно на версиях Windows начиная с 98SE.

Софт WT-синтез

Софт синтез по таблице волн требует всего лишь процессора в 300 мГц. Поэтому, можно не обращать особого внимания на MIDI возможности звукового адаптера, так как доступны довольно совершенные софт синтезаторы.
Так, в Windows (после установки DirectX) доступен 6-фазовый софт синтезатор, поддерживающий DLS2. По умолчанию используются банк Roland GM/GS Sound Set размером 3.3 Мбайта.
Для целей караоке более чем достаточен более продвинутый софт синтезатор S-YXG50 Soft Synthesizer от Yamaha, поддерживающий MIDI XG. Триал версия этого и целой линейки подобных синтезаторов доступны для скачивания с этого адреса . Его банк имеет эффективный размер в 12 Мбайт. Поддерживается 32-голосная полифония с наложением простейших алгоритмов реверберации и хоруса.
Для профессионального применения хороши софт синтезаторы из линейки GigaStudio от Nemesys Music Technology.

Синтез на основе Sondius технологии

Волновой синтез, основанный на сэмплах, хотя и создает реальный звук, в принципе не может достичь подлинно реалистичного звучания. Дело в том, что звуки большинства струнных и духовых инструментов сильно зависят от скорости извлечения звука (скажем, жестко или мягко дернули за струну), материала, из которого сделан инструмент и еще многих параметров. Все это невозможно “загнать” в несколько сэмплов.
Более точными являются MIDI синтезаторы, основанные на математической модели инструмента (колебательного процесса с учетом пространственной протяженности, затухания и др.). В качестве параметров как раз и выступают материал инструмента, его габариты, скорость извлечения и др. Дополнительным плюсом является большая интерактивность и управляемость. Однако повышается требования к центральному процессору, который и выполняет синтез.
Наиболее распространена технология Sondius Стэндфордского Университета, лицензированная многими производителями. Она является аппаратно независимой и позволяет накладывать эффекты и использовать DLS. В результате высокой вычислительной трудоемкости в нынешних реализациях звучать может только один sondius-инструмент, которой является к тому же однотональным. Поэтому синтезатор используется для солирующих партий в дополнении к аппаратному волновому синтезу.
Реализация Sondius в программах компании Yamaha имеет совместную торговую марку Sondius-XG, где XG означает, что sondius-инструмент можно встроить в состав XG MIDI. Примером является Sondius-XG синтезатор S-YXG100 от компании Yamaha, который идет, например, в комплекте со звуковыми картами на контроллерах Yamaha YMF-7xx. При наличии такого софт синтезатора юзер получает поддержку XG и Sondius на любой звуковой карте.

Приложение №5. Цифровые интерфейсы


Передача аудио по цифровым каналам позволяет снизить шумы от наводок. Поэтому цифровые порты и шины давно применяются в домашней аудио аппаратуре. Характеристической особенностью мультимедийных шин является их изохронность, позволяющая передавать мультимедийные потоки без задержек.
Заметим, что в PC давно встроены USB порты, однако эта шина проектировалась на передачу данных и поэтому не изохронная. И хотя существуют цифровые USB колонки, они не дают достаточного качества и больше подходят для дешевых решений без звукового адаптера.
В настоящее время для связи с периферийными устройствами используется в основном шина SPDIF из-за широкого распространения в домашней аппаратуре. Спецификация AC'97 рекомендует более современную шину IEEE1394 (FireWire), сочетающую высокую скорость и изохронность. Это шина совершенно универсальная, т.е. позволяет передавать не только аудио, но и видео и просто данные.

SPDIF

Общие сведения
Иногда пишется S/PDIF (Sony/Philips digital interface, произносится “спидиф”). Интерфейс и последовательная шина передачи цифрового аудио от одного устройства к другому. Однонаправленный (в одном направлении). Используется всего один сигнальный провод (второй электрический провод – “земля”).
SPDIF является несколько упрощенным вариантом студийного интерфейса AES/EBU (что записывают в виде CONSUMER IEC-958 DIGITAL INTERFACE – потребительский вариант IEC-958).
Восходит к первой половине 1980-х годов, когда появились CD плееры и домашние цифровые магнитофоны. Описывается стандартами:

IEC958 1989-03 – передача 1-го или 2-х аудио каналов (т.е. стерео звук).
IEC60958 (1998 г.). Представляет собой расширение IEC958 в отношении передачи многоканального звука (типа AC3, DTS, MPEG2 аудио). Используется формат данных, описанных в стандарте IEC61937 (1994 г.).

Характеристики аудио потока: частоты 32, 44.1, 48 и 96 кГц, разрядности 16-24 бит, ширина пропускания 0.1-6 мГц, уровень сигнала 0.5-1 В. Это дает пропускную способность около 3 мбит/с.
Приемник интерфейса способен преобразовывать разрядность и частоту, адаптируя их под то устройство, в которое он встроен. Таким образом, может производиться пересэмплирование (которое чуть ухудшает качество аудио).
С современных позиций недостатками SPDIF (скорее теоретическими, чем практическими) являются:

Невысокая пропускная способность.
Однонаправленность.
Отсутствие управляющих линий. Так что невозможно опросить состояние удаленной стороны (подключена ли она, работоспособна) не говоря уже об управлении.
Не PnP.
Склонность к джиттеру, что связано с тем, что синхросигналы и данные передаются по одному каналу. По стандарту AES/EBU допускается девиация фазы 20 пс, т.е. в допустимых пределах джиттер не опасен. Другие ошибки передачи исправляются посредством встроенных в кадр передачи кодов исправления ошибок (ECC). В настоящее время интерфейс достиг определенного совершенства и эта проблема перестала быть акутуальной.
Наличие различных коннекторов и кабелей (см. ниже).
Все еще встречающаяся электрическая несовместимость устройств от различных производителей.


Кабель и коннекторы
По стандарту допускаются кабели

коаксиальный медный (75 Ом) с RCA или BNC коннекторами на аппаратуре и мини джек на звуковых картах. Длина кабеля – до 2 м (при хорошем кабеле и коннекторах длина может достигать 10-15 м). Подойдут и видео кабели.
оптический с коннектором TOSLINK длиной до 1.5 метра для пластика и 3 метра для стекловолокна.

Оптический выход используется исключительно в некомпьютерной аппаратуре.
В звуковых картах применяют также коннекторы мини джек.

I2S

Другое сокращение IIS (Inter-IC Sound). Промышленный стандарт, разработанный Philips Semiconductors в 1993 г. Как и SPDIF, является однонаправленным. Шина имеет 3 сигнальных провода и один общий (так что используются 4 контакта). Один из проводов предназначен для синхроимпульсов, другой – для данных. Благодаря тому, что синхроимпульсы и данные передаются раздельно, практически устраняется джиттер. Обладает бОльшей пропускной способностью по сравнению со SPDIF.
Шина работает на небольших расстояниях, поэтому используется или как внутренняя в звуковой карте или для передачи аудио с DVD привода или карты MPEG декодера на цифровой вход звуковой карты. В звуковых картах позволяет передавать на кодек (или ЦАП) звуковой поток с параметрами, превосходящими ограничения шины AC-link в 20 бит.
Заметим, что при производстве Hi-End аппаратуры применяется также улучшенный интерфейс I2Se (фирменная разработка Sonic Frontiers и UltraAnalog), где используются 5 сигнальных проводов, причем каждый имеет свою землю (дифференциальная витая пара). Этим самым получается полная развязка сигналов, что необходимо при передаче звука с высокими параметрами: 24 бит, 96 кГц. Коннектор называется "13W3".

IEEE 1394 (Firewire)

Это внешняя компьютерная высокоскоростная последовательная шина (последнее обеспечивает и компактность коннекторов). Первоначально разработана компанией Apple под названием FireWire в качестве универсальной шины для периферии, затем была оформлена стандартом IEEE 1394-1995. Более всего похожа на USB, но обладает значительно большими возможностями. Не привязана к компьютеру (в отличие от USB) и позволяет соединить, например, две цифровые кинокамеры.
Как и USB позволяет подключать несколько периферийных устройств (до 63), которые могут образовывать топологическое дерево. Допускается “горячее” подключение. Каждое устройство может запросить гарантированную полосу пропускания (изохронный режим) и выбрать свою скорость из допустимых и указанных ниже значений. Соответствующий протокол называется Audio and Music Data Transmission Protocol (A/M Protocol). Поэтому шина идеальна для передачи аудио и видео. Допускается и асинхронная передача. Передача может быть дуплексной.

Различают спецификации

старая IEEE 1394a, где длина кабеля между 2 устройствами ограничена 4.2 м, а пропускная способность составляет 100, 200 и 400 мбит/с;
новая IEEE 1394b, где длина кабеля между 2 устройствами доходит до 100 м, а пропускная способность – до 800 мбит/с. Обратно совместима со старой спецификацией 1394a.

Впервые появилась на компьютерах Macintosh. Windows поддерживает Firewire начиная с версии 98. Ожидается широкое распространение, т.к. идеально подходит для подключения мультимедийной периферии (остальная периферия может быть подключена по USB, так что в компьютере будет всего 2 типа портов). В случае встраивания контроллера Firewire в системный чипсет, стоимость первого составит всего $6.
По стандарту кабель экранирован и имеет 6 медных проводов: 2 питания и по 2 витых пары сигнальных проводов в экране для каждой пары. Одна пара используется для приема, другая – для передачи.

Разъем похож на USB'ный.

Корпорация Sony использует шину для связи с цифровыми кинокамерами. Так как питание на камеру подавать не надо, то Sony разработала спецификацию iLink (1998 г.). Отличием является более тонкий кабель Sony VMC-20V без проводов питания с 4-контактным коннектором AV; скорость в 200 и мбит/с; защита

Приложение №6. Позиционируемый 3D звук


Понятие позиционируемого 3D звука

Позиционируемый 3D звук (Positional 3D Audio), часто просто называемый 3D звуком – имитация звука от виртуального точечного источника с заданным положением в пространстве. Например, это может быть пение соловья, сидящего на ветке. Термин позиционируемый означает, что источник находится в задаваемой точке пространства, положение которой может динамически изменяться. Термин 3D означает, что источник находиться в трехмерном пространстве (3 dimensional), например, наверху и впереди.
3D звук появился вначале в авиационных тренажерах, а сейчас широко применяется в играх. Источников звука может быть несколько.
3D технологии имеют определенные ограничения, например, невозможно при расположенных на уровне уха колонках воспроизвести звук, исходящий точно снизу.

Основы реализации 3D звука

На первый взгляд кажется невероятным возможность воспроизведения не горизонтально расположенного источника на наушники или расположенные в горизонтальной плоскости колонки. Однако такой обман слуха оказывается все же возможным. Для этого используются результаты исследований, как уши распознают направление на источник. Оказывается, слух анализирует задержки прихода звука в каждое ухо, разницу в громкости и сдвиг по частоте. Последнее наиболее важно. Компания SRS Labs предлагается провести такой эксперимент. Потрите ладонями перед лицом. Затем проделайте то же самое на таком же расстоянии, но напротив уха. Вы явственно услышите, что во втором случае звука слышится громче, а диапазон частот расширился. В случае фронтального расположения басы и средние частоты “срезаются”, а громкость уменьшается. Вот эти разности фазы, громкости и частоты и определяют расположение источника. Если создать такие же сдвиги на наушниках или колонках, то это и будет воспроизведение виртуального источника.
В адаптерах применяется имитация, основанная на механизме работы слуха. Обозначается по-английски трудно запоминаемой (и переводимой) аббревиатурой HRTF (Head Related Transfer Functions).
Наиболее просто имитируется 3D звук на наушники. Там используется “голый” HRTF, что эквивалентно тому, что производилась бинауральная звукозапись, т.е. запись на микрофоны, помещенные в ушных раковинах головы. Далее запись просто воспроизводится в наушники.
В случае двух фронтальных колонок большинство технологий использует метод HRTF+CC, где CC – cross-talk cancelation – подавление перекрестного звука, так, чтобы правое ухо слышало только правую колонку. Здесь в ушах слушателя также будет чистый HRTF, но для этого колонки излучают его со специально вычисленными взаимно подавляющими друг друга добавками. Это подавление будет выполняться только в некоторой ограниченной области нахождения слушателя – sweet spot (место наслаждения).
В случае 4 колонок метод HRTF+CC оказывается неподъемно тяжелым и существует несколько упрощенных реализаций. 4-схема (т.е. использование 4 колонок, а точнее, тыловой пары) назовем:

точной, если каналы на тыловую пару рассчитываются независимо от каналов на фронтальную пару;
панорамной, если каналы на тыловую пару дублируют каналы на фронтальную пару;
транзитной: если источник звука находится впереди, то он реализуется передними колонками, если сзади – то задними. На “оставшиеся” колонки идет дублирование основных.

Каждая из рассматриваемых ниже технологий 3D звука имеет отдельные реализации на наушники, 2 и 4 колонки.
Все эти методы исходят из того, что источник звука находится на открытом пространстве. Однако сцены игр обычно происходят в закрытых помещениях. Поэтому для реалистичности на образованный 3D звук накладывают эффекты присутствия среды (эхо, реверберация, окклюзия, обструкция и т.д.) чтобы, например, звук шагов отдавался гулким эхом.

Технология 3D звука = API + звуковой движок

Перед чтением этого и следующих подразделов полезно прочитать про DirectX в Глоссарии.
Существуют несколько технологий 3D звука от разных разработчиков. Эти технологии можно разделить на три класса:

позиционирование источников звука в безграничном пространстве;
эффекты окружающей среды;
фирменные улучшения и расширения.

Компонента позиционирования должна взять на входе монофонический источник звука (например, пение соловья в виде WAV-файла), обработать (внеся соответствующие задержки, изменения частоты и др.) и распределить по каналам заданной акустической конфигурации. Компонента среды накладывает на каждый канал соответствующие эффекты среды.
Реализация каждой технологии 3D звука в конкретном звуковом адаптере состоит из пары API и звукового движка, который реализует функции API. Движок является, в общем случае, программно-аппаратным. Сторонний производитель адаптера лицензирует у создателя технологии соответствующие алгоритмы 3D звука.
API состоит из описаний заголовков функций типа “поместить точечный источник звука из заданного потока с такой то громкостью, такой-то высотой тона в такую-то точку пространства”. Движок реализует функции для данной акустической конфигурации, используя собственны алгоритмы.
API позиционирования и среды стандартизованы: используется API DirectX от Microsoft. Поэтому разные технологии, имея одинаковые API, различаются движками. Какой движок надо вызывать (точнее их очередность) указывается в настройках игры.

Microsoft DS3D

Технологией 3D звука у Microsoft является DirectSound3D – компонента DirectX, сокращенно DS3D. API DS3D является в настоящее время стандартом де-факто.
Движок DS3D софтовый, и предоставляет только базовые возможности (например, звук от заднего источника звучит глуше, чем от переднего). Звук невысокого качества (с параметрами оцифровки 8 бит и 22 кГц) и медленным софт микшером 3D потоков.
Однако DirectX и DS3D в частности устроены так, что если адаптер объявляет о поддержке функции, то вызов функции из API передается вместе с обрабатываемыми звуковыми потоками в драйвер карты (таким образом, драйвер пишется под определенный API, помимо конкретной ОС). Далее в игру вступают фирменные технологии как на аппаратном, так и на программном уровне.
В качестве API для компоненты создания эффектов окружающей среды (в DirectX 8.0) используется стандартный API I3DL2 ассоциации IA-SIG, который содержит эффекты реверберации помещений, окклюзии и обструкции. Это немного переработанный API EAX2 от Creative.
В движке I3DL2 используются также лицензированные алгоритмы движка Creative EAX2.

Creative EAX

Технология Creative Environmental Audio Extension служит создания 3D эффектов окружающей среды (Environmental Audio). Есть версии 1.0, 2.0 (добавлена окклюзия и обструкция) и 3.0 (добавлен, например, гладкий переход между различными средами). Геймер может использовать свыше 50 готовых пресетов, составлять из них свой и запоминать под уникальным именем.
API открыт для разработчиков без каких-либо отчислений и отличается простотой и наглядностью. Алгоритм также открыт!
Движок основывается на статистических замерах реверберационных свойствах помещений (средняя пещера, средняя маленькая комната, материал стен и т.д.). Разработчик просто выбирает из нескольких десятков вариантов (арена, концертный зал и т.д.) или создает свой. В процессе игры варианты динамически меняются, и игрок слышит, как изменилась акустика при переходе от лестницы в зал. Реверберация автоматически создается в зависимости от размеров помещения, направленности источников звука, взаимного расположения слушателя и источников звука. Эффекты можно налагать на любой поток, например, наложить среду EAX “концертный зал” при проигрывании трека CD-DA. Однако технология не является полностью динамической в том смысле, что если, например, в стене образовался пролом, то ничего поделать нельзя (нет такого пресета).
Наиболее полный аппаратный движок есть в продвинутых картах от Creative. Софт движка нет, однако многие эффекты EAX 2.0 лицензированы и реализованы в софт движке MS DS3D (начиная с v7 DirectX).

Технологии от Sensaura

Технологии от компании Sensaura под общим названием Sensaura 3D являются наиболее продвинутыми и широко используются. API Sensaura 3D представляют собой фирменное расширение MS DS3D, которое компания называет “DS3D enhancement” - улучшенное DS3D.
Технологии, включают следующие компоненты:

3D Positional Audio – 3D позиционируемое аудио. Реализация на наушники использует HRTF, на 2 колонки – HRTF+CC.
MultiDrive – позиционируемый 3D звук на 4 и более колонок. Точная реализация по некоторому оригинальному алгоритму TCC (обычный CC потребовало бы неподъемных расчетов). Работает и на 5.1 акустике. Единственное требование – расставить фронтальные и тыловые колонки под углом в 30° к продольной оси слушателя. По времени появления это первая технология точной реализации на 4 колонки.
EnvironmentFX – учет окружающей среды. Включает до 26 предустановленных помещений, звуки под водой, звук в трубе и т.д. Совместим по API с EAX 1.0, 2.0 и I3DL2.
MacroFX – воспроизведение звуков от близких источников (например комара у уха). У софт движка DirectX ближняя зона (где интенсивность источника не меняется с расстоянием) ограничена 1 м. Здесь зона уменьшена до 20 см. Технология использует DS3D API и поэтому прозрачна для приложений.
ZoomFX – воспроизведение звуков от неточечных источников (например, от большого локомотива, проносящегося мимо). Моделирование происходит множеством точечных источников, распределенных по поверхности объекта. Именно эта технология использует расширенное API (по отношению к DS3D), так как в функции надо указывать число источников и геометрию тела.
Virtual Ear – подстройка звучания под ухо юзера. Дело в том, что восприятие человека зависит от формы его ушных раковин и головы, а также индивидуального слуха (особенно для верхних частот). Обычные технологии предполагают некоторые средние уши и голову. “Виртуальное ухо” дает возможность отрегулировать звучание под себя, добиваясь максимального правдоподобия. Реализуется с помощью специальной утилиты. На рисунке видно, что утилите задается размер уха.


QSound Q3D

Технологии компании QSound Labs для 3D звука называются в совокупности QSound3D или, сокращенно, Q3D.
В настоящее время используется версия Q3D 2.0 и разрабатывается 3.0. В Q3D 2.0 используется транзитная 4-схема.
API Q3D совместим с API DS3D, EAX2 и I3DL2. Компоненты Q3D:

Q2 – 3D аудио для наушников. Основана на бинауральной записи для многих положений источника.
Q1 – 3D аудио для 2 колонок. Не используются трудоемкий метод HRTF+CC. Вместо этого применяют готовые фильтры, основанные на многочисленных (550 000) прослушиваниях реальными людьми на реальных колонках. Такой подход дает значительную экономию ресурсов.
QEM (QSound Environmental Modeling) – эффекты среды. Совместима по API с EAX и также основан на результатах прослушивания (а не расчетах).

Помимо собственно 3D технологий компания лицензирует также технологии окружающего звука Qsurround

Qsurround – даунмиксинг 6-канального AC-3 звука (домашнего кинотеатра) на 2 или 4 канала посредством как DSP, так и HSP алгоритмов.
QMSS (QSound Multi-Speaker System) – апмиксинг стерео на 6 каналов.


Aureal A3D

В настоящее время эта интересная технология почти не используется, так как уже не существует создавшей ее компании Aureal. Но все еще есть в продаже старые адаптеры, основанные на контроллерах от Aureal. A3D представляет собой технологию учета окружающей среды. Известны версии 1.0, 2.0 и 3.0.
API также называется A3D. Все указанные выше технологии эмулируют поддержку API A3D1, транслируя его вызовы в вызовы API DS3D. Технология свободна от каких-либо лицензионных отчислений.
Есть софт движок под названием A2D. Аппаратный движок был реализован только в картах на контроллерах Vortex от самой же Aureal. Движок основан на методе расчета отражений звука. Именно, упрощенная геометрия сцены (а ее более точный вариант уже есть в игре) передается на каждом шаге времени в движок, и просчитываются пути первых отраженных звуков, приходящих к слушателю. Остаточный звук вычисляется по реверберационной модели, аналогичной EAX. Поэтому геометрия помещения учитывается более точно (например, есть арки и колонны, учитывается материал стен) и она может динамически меняться (двери открываться и закрываться, в стенах могут образовываться проломы). По результатам испытаний технология была признана наиболее успешной для игр. Алгоритмы довольно ресурсоемкие, поэтому требуют аппаратного ускорения. 4-схема точная.

Приложение №7. Домашний кинотеатр


Технологии многоканального звука

Технологии включают в себя форматы файлов (потоков), кодеки, конверторы даунмиксинга.
Во всех описываемых ниже форматах звук в каждом канале сжат (с потерями), а все каналы упакованы в одну звуковую дорожку. В настоящее время используются форматы:

Dolby Digital
преобладающий формат, который всегда поддерживается встроенными декодерами акустической аппаратурой и звуковыми адаптерами.
Digital Theater Systems (DTS)
более новый, качественный и пока менее распространенный формат. Обладает более высоким качеством, но требует больших ресурсов для декодирования.
Пока существенно менее распространен и менее поддержан акустической аппаратурой и звуковыми адаптерами.
DTS-ES (DTS Extended Surround)
совсем новый (2000 г.) 6.1-канальный формат. Совместим снизу с DTS.

Все технологии включают в себя конверторы, позволяющие производить даунмиксинг на меньшее число каналов: 4 и 2 для использования с соответствующей малоканальной акустикой. Центральный канал при этом микшируется на 2 передних, а звучание даже на 4 колонках значительно хуже, чем на полной 5.1 акустике.
Рассмотрим некоторые подробности форматов.

Dolby Digital (DD 5.1)
В Dolby Digital используется лицензируемый компанией Dolby Labs кодек AC-3 (Audio Code 3), который:

допускает PCM звук в каналах с разрядностью до 20 бит и частотами 32, 44.1, или 48 кГц;
сжимает и упаковывает все в одну дорожку с суммарным потоком от 384 до 640 кбит/с в зависимости от того, сколько отводится на каждый канал.
Заметим, что поток в одном PCM канале с параметрами 48 кГц и 16 бит составляет 750 кбит/с.

В случае суммарного потока 384 кбит/с используются по 64 кбит/с на каждый из 6-ти каналов, а коэффициент сжатия составляет 11.7. Такое большое сжатие используется сейчас в подавляющем большинстве фильмов с Dolby Digital звуком.
В 20 % фильмов с Dolby Digital звуком сейчас используется кодирование 96 кбит/с на 2 фронтальных канала и по 64 кбит/с на 4 остальные, что составляет 448 кбит/с а средний коэффициент сжатия равен уже 7.8. Это также большое сжатие, и качество больше подходит для трансляции спортивных состязаний со стадиона.
Однако достоинством AC-3 является малая трудоемкость декодирования, составляющая всего 80-120 MIPS, с чем легко справляется центральный процессор (т.е. не нужен аппаратный декодер).
Технология Dolby Digital имеет составной частью конвертор даунмиксинга (используется информация со всех каналов) в Surround Pro Logic и стерео. Поэтому допускает даунмиксинг на 4 и 2 колонки, а также наушники.

Digital Theater Systems
Для сжатия используется более качественный кодек, разработанный компанией DTS (Digital Theater Systems). Сам алгоритм называется Coherent Acoustics (но упоминают не его, а имя компании). Он позволяет использовать исходные каналы с параметрами до 192 кГц и до 24 разрядов. Coherent Acoustics использует для сжатия тот факт, что амплитуды типичного музыкального произведения падают с частотой. В результате при потоке 705.6 кбит/с на канал, который использует CD-аудио (16 бит, 44.1 кГц), достигается качество 24 бит и 192 кГц.
DTS отводит на каждый канал по 128 кбит/с или 256 кбит/с, так что коэффициент сжатия составляет соответственно 5.9 и 2.95 соответственно. Трудоемкость декодирования, напротив, достаточно велика и составляет 160-400 MIPS.
DTS-ES представляет собой 6.1-канальный формат. Дополнительный 7-й канал предназначен для центральной диалоговой колонки, расположенной сзади. Первые продукты появились в 2001 г.

Автономные устройства поддержки домашнего театра

Для поддержки домашнего театра можно использовать следующие устройства, которые не требуют звукового адаптера:

USB-SPDIF адаптер типа Abit i/Optica.
Акустика должна иметь цифровой порт и декодер, а звуковой адаптер вообще не нужен.
В комплекте поставки идет версия софт DVD плеера WinDVD, который осуществляет проброску AC-3 на USB порт. Далее USB-SPDIF адаптер производит конвертацию и подает поток на входной SPDIF порт акустики.
Внешний декодер
типа Abit USB Theater 5.1. Используется когда акустика не имеет цифровых портов, только аналоговые.
Декодер распаковывает и декодирует на 6 каналов AC-3, используя 24-разрядный ЦАП, и передискретизацию на частоте 96 кГц.
карта DVD (MPEG-2) декодера со своим цифровым (SPDIF) аудио выходом.




Далее: Часть 4. Глоссарий...