А знаете ли вы...? Для начинающих: MP3 и оцифровка музыки

Автор: WhiteShadow
Дата: 16.11.2002
Все фото статьи
Все человечество уже привыкло к такой повседневной вещи, как запись и воспроизведение звука, будь то запись диктофона, автоответчика или музыкальные записи любимых исполнителей. А люди, которые большую часть своего времени проводят возле компьютера, наверно и представить себе не могут жизнь без саунда. В этой статье речь пойдет о таком распространенном формате кодирования как MP3.

Что ж, начало звукозаписи положил Томас Алва Эдисон, когда прокричал в свою "Говорящую машину" слова "У Мэри был барашек". "Говорящая машина" была первым в мире аппаратом, позволяющий записывать и воспроизводить звук - фонограф, который механическим способом записывал на восковой валик звуковую дорожку. По тем временам это был, несомненно, большой шаг вперед, так как в то время, а это было в 1877 году, даже никому в голову не приходила идея создания нечто подобного.

Однако наибольшим недостатком такого звукового носителя являлась недолговечность записи. С развитием науки и техники люди научились записывать звук не только механическим способом, как это сделал Эдисон, но электромеханическим и фотоэлектрическим, а с появлением компьютеров появилась возможность записи звука и в оцифрованном виде. Главным достоинством такого способа записи является сохранения качества звука вне зависимости от того, сколько раз его воспроизводили или перезаписывали, а так как цифровую информацию можно обрабатывать на компьютере, то это открывало широкие двери возможностей для работы со звуком. Но так как на ранней стадии развития цифрового звука запись одной композиции стоила немалого дискового пространства, а магнитные носители имели маленькую емкость, то разработчики программного обеспечения стали ломать голову над тем, как на маленький винчестер поместить много музыки. Это привело к появлению различных программ - компрессоров, которые уменьшали размер звукового файла. Алгоритмы компрессии предусматривали удаление определенных частот, что приводило к потере качества звука, и тогда пользователь становился перед выбором, затратить ли деньги на покупку дополнительных мегабайт и хранить музыкальные файлы в несжатом виде, или сэкономить и использовать компрессоры.

Для начала давайте разберемся, что же такое "звук" в реальной жизни. Передача информации на расстоянии с использованием акустических колебаний возможна только благодаря свойствам акустической среды, в которой и происходят эти самые звуковые колебания. Они возможны за счет наличия в проводящей среде упругих связей между частицами. Источник звука создает область определенного давления, сжимая молекулы воздуха. Эти молекулы передают свою энергию другим, находящимся рядом, а те, в свою очередь, третьим, и т. д., что приводит к возникновению областей повышенного и пониженного давления относительно давления окружающей среды. Таким образом создается звуковая волна, по своей природе имеющая непрерывный характер. Одним из параметров волны является амплитуда. Возьмем простой пример - струна на гитаре. Всем известно, что для увеличения громкости звучания нужно дернуть струну посильнее, тем самым увеличить амплитуду ее колебания, что повлечет за собой увеличение отклонения давления. Но одной волны не достаточно для передачи звука, который может восприниматься человеческим ухом. Еще одним важным моментом является частота колебаний, т. е. частота, с которой источник звука создает изменение давления, и именно эта частота определяет тон передаваемого звука. На гитаре для изменения тона нужно зажать струну на определенном ладу, т.е. изменить длину струны и как следствие - частоту ее колебаний.

Теперь, имея небольшое представление о природе звука, давайте перейдем от аналогового сигнала к цифровому. Чтобы оцифровать "природный" звук для начала нужно его преобразовать в аналоговый электрический сигнал. В этом случае аналогом амплитуды звуковой волны является амплитуда изменения напряжения. Как было сказано ранее, волна и аналоговый электрический сигнал это непрерывные функции, но для оцифровки ее нужно представить в дискретном виде. Для этого используется АЦП (аналогово-цифровой преобразователь), который разбивает непрерывную волну на участки (Sample - выборка) и представляет амплитуду волны на этих участках в виде числа, т. е. производит квантование. Понятно, что для более высокой точности и чистоты звучания количество выборок должно стремится к бесконечности, а их размер к нулю. Количество выборок за одну секунду называется частотой дискретизации или частотой сэмплирования и измеряется в Гц. Встает вопрос, какую частоту дискретизации использовать при оцифровке, чтобы результат был наиболее естественным? Из теории известно, что для наиболее точного восстановления непрерывного аналогового сигнала по дискретным значениям нужно использовать частоту дискретизации как минимум в 2 раза превышающую частоту звука (Теорема Найквиста). Известно, что человеческое ухо может воспринимать звук частотой от 18 до 20 000 Гц. Таким образом, оптимальной частотой дискретизации является 40 и более кГц. Наиболее распространенными частотами дискретизации являются 44.1 кГц, 48 кГц. Однако из-за того, что гармоники, частота которых превышает 20 кГц, тоже влияют на общее звучание, то используются также кодеры с частотой дискретизации 96 и 192 кГц. Также качество звучания зависит и от количества разрядов, которые используются для записи измеренной амплитуды. Погрешность квантования обратно пропорциональна разрядности. Таким образом, при 8-разрядном квантовании уровень звука записывается при помощи цифр из диапазона [-128; 128], при 16-разрядном из [-32768; 32768]. К примеру, при записи аудио CD используется именно 16-битное квантование, поэтому они и обладают высоким качеством звучания.

Сделаем промежуточный вывод: АЦП преобразует аналоговый сигнал в цифры и записывает их в виде последовательности. Так получается Wave - формат звука. Можно отметить, что на аудио CD звук записывается в этом же формате. Однако этот способ хранения является неэкономичным. Наверное многие отдают большее предпочтение МР3-диску, на котором может поместиться более 200 песен, нежели обычному CD. Это достигается путем сжатия Wave-файла за счет потери качества. Но не стоит пугаться, так как человеческое ухо практически не в состоянии распознать потерю качества звучания после сжатия. Сейчас поясню. Все началось с тех пор, когда в конце 80-х годов международная организация по стандартизации (ISO) создала группу Moving Pictrures Experts Group, задачей которой было разработать некий международный стандарт представления цифровых видео- и аудиоданных. Результатом работы группы стал формат MPEG-1 Layer 3, сокращенно MP3, позволяющий сжимать аудиоданные с отношением 1/12 практически без потери качества. Алгоритм сжатия звука в этом формате основывается на психоакустических особенностях человеческого органа слуха и поэтому удаление элементов не воспринимаемых ухом не сказывается на заметном ухудшении качества. Предположим, что в комнате находится много людей, и все они разговаривают между собой в полный голос, и если вы попытаетесь позвать человека, стоящего всего в нескольких метрах от вас, не прибегая к повышению голоса, то не надейтесь, что он откликнется на ваш зов, так как из за создаваемого шума он вас не услышит. Это происходит потому, что звуки одной частоты с более большей амплитудой маскируют другие частоты с меньшей амплитудой. Однако этот печальный эффект благополучно используется для сжатия оцифрованного звука. В Wave-потоке будет содержаться вся звуковая информация, даже маскируемая, которая не слышна уху, но после сжатия эта информация удалится, что уменьшит размер файла. Другой важной характеристикой человеческого органа слуха, используемой для сжатия, является инерционность. Ухо, вульгарно выражаясь - инерционный прибор, поэтому на границе перепада уровня звука с большего на меньший определенное время (~100 мс) человек не может слышать звук меньшей амплитуды, следовательно, звук в этом периоде можно и не сохранять. Также можно не сохранять звук который лежит за порогом чувствительности, т. е. звук уровень которого лежит ниже какого-то определенного значения и поэтому неслышим человеку. Еще одним интересным свойством, применяемым для кодирования (но не путем "урезания", а путем сжатия), является неспособность человека к выявлению расположения источника звука низкой частоты. Напомню, что это эффект еще используется и в акустических системах, где применяется только одна низкочастотная колонка - сабвуфер. Таким образом, в стерео режиме можно записать низкочастотный звук в один канал, выделив, разве что, наиболее ощутимую разницу между ними. Этот метод называется соединенное стерео (joint stereo).

Таким образом, в совокупности все это приводит к значительной экономии дискового пространства, занимаемого звуковым файлом. Среднестатистический музыкальный файл, занимающий в "полном" виде 30 - 40 Мбайт, после кодирования в MP3 уже занимает 3 - 4 Мбайт, что позволяет записать на диск более 11 часов музыки. Однако и это еще не предел. В 2001 году у формата MP3 появился наследник - формат MP3Pro. Его создатели - компания Thomson Multimedia и германская Fraunhofer Institute. Отличительной особенностью нового улучшенного формата является то, что при том же качестве файлы в новом формате занимают в 2 раза меньше места по сравнению с обычными MP3шками. Например, файл MP3Pro с качеством звучания 128kbps будет занимать столько же, сколько и 64kbps файл MP3. Достоинством также является то, что обычные MP3-проигрыватели смогут воспроизводить файлы MP3Pro, как и проигрыватель MР3Pro сможет воспроизводить файлы формата MP3.

Давайте разберемся, как это достигается. Принцип работы MP3Pro формата достаточно прост. При кодировании звуковой поток разбивается на две части, два потока. Первый - низкочастотный, который кодируется в обычном MP3 формате, что, кстати, и делает возможным обратную совместимость форматов, потому как обычные плееры воспроизводят только эту часть файла. Второй поток - высокочастотный, который кодируется в ту часть MP3 потока, которая старыми плеерами игнорируется. Новый же декодер совмещает эти два потока, что приводит к полноценному звучанию во всей полосе частот.
Что же касается продвижения нового формата на рынок, то по сравнению со своим старшим братом MP3Pro не получил такого широкого распространения. Компания Thomson Multimedia предоставляет для скачивания со своего сайта бесплатную версию MP3Pro плеера/энкодера. Ограничения данной версии в том, что при кодировании доступно только качество 64kbps. Любителям WinAmp предоставляется плагин для проигрывания MP3Pro - файлов

Конечно, на MP3 свет клином не сошелся, есть и другие форматы цифрового кодирования, но, несмотря на это, он остается наиболее популярным.