Формати за цифрова музика: Ogg Vorbis



Дата18.09.2016
Размер96.04 Kb.
#10089
Формати за цифрова музика: Ogg Vorbis

 

 

 

 

Съществуват множество формати за кодиране (компресиране) на аудио, като най-широко разпространен за момента е MP3:

  • MPEG 1 Layer3 (MP3)

  • Ogg Vorbis

  • MPEG 4 audio TwinVQ

  • MPEG 2 AAC (MPEG 2 Advanced Audio Coding)

  • VQF

  • LQT - Liquifier (формат, основан на VBR кодиране, изработен бърху основата на алгоритмите, използвани и в AAC)

  • sfArk - формат за компресия без загуби

  • PAC

Безспорно, МР3 е пионерът на цифровото аудио, но, както често се случва (да си припомним ситуацията с VHS и Betamax), той бавно започва да отстъпва позициите си пред нови, по-модерни и качествени формати, осигуряващи по-качествено звучене при по-малък размер на файла.

Ще започна с един въпрос, на който веднага ще дам отговор: има ли смисъл въобще да се ползва някои формат за компресия (в този случай е компресия със загуби), при което от оригиналната фонограма се изрязват някои фрагменти, които се почти незабележими за човешкото ухо. Та отговорът е следният: допустимо е използването на компресиращи алгоритми, когато ние приемаме, че качеството на звука, който се получава след компресия, не съответства съвсем точно на оригинала и полученото цифрово аудио в бъдеще няма да се обработва сериозно със звуков редактор или няма да се конвертира в друг формат. За наистина безкомпромисно качество, уви, ще се наложи да използвате (за сега) CD-DA формата (върху CD) или *.wav (върху хард-диска).

Искам да уточня следното нещо: просвирвайки в домашни условия цифрова компресирана музика на средностатистически асемблиран от "жълти" компоненти компютър с некачествена "шумна" карта и дрънчащи колонки, логично е да се предположи, че няма да можем да забележим разликата между оригинала и компресираното му копие. По-качествения (и по-предпочитан) вариант представлява компютър с аудиокарта от класа на Creative Sound Blaster Live!, изходът на която е свързан към домашна озвучителна система (усилвател-озвучителни тела) от по-висок клас. В този случай вече може да се говори за възможност за отчитане на разлики в качеството на звучене. Целта на тази статия не е изследване характеристиките и параметрите на качественото възпроизвеждане на звука, както и разясняването на множеството свързани с това термини, определения и понятия, така че спирам до тук.

OGG Vorbis

Заедно с Linux, open-source алтернатива на MS Windows, общността на open-source разработчиците обърна поглед към нова цел: музикалната индустрия. Група от open-source разработчици е регистрирала компания на име Xiphophorus, наречена на името на малка сладководна аквариумна рибка, която е и логото на формата OGG Vorbis. Въпреки,че фирмата е представила разработения от нея формат на 20 юни 2000 (Beta 1), обещаващ да даде по-добро качество на звука при по-малък размер на файла, отколкото МР3, форматът OGG Vorbis (файловете имат разширението *.ogg) има дълга предистория.

Един от сегашните лидерите и главни разработчици в проекта, Крис Монтгомъри (Chris Montgomery), 7 години преди това, взе решение да съхранява колекциите си от музика върху твърдия си диск (знаем какви бяха капацитетите на устройствата по онова време!). За целта той е започнал разработването на алгоритми за компресия на оригиналния материал, за да има възможност да вмести повече композиции върху своя HDD. В резултат на това се появи завършен продукт за CD ripping, озаглавен CD Paranoia.

Няколко години по-късно, Джак Мофит (Jack Moffit), project manager на OGG Vorbis, предлага на Монтгомъри да се присъедини към iCAST, проект, целящ революционизиране на музикалната индустрия. След като проектът iCAST не бива доведен до край и е закрит през 2000 г, работата по детайлизирането на новият формат на компресия продължава, достигайки до обявяване на версия 1.0 beta1 през лятото на 2000 г.

OGG Vorbis е open source проект, плод на група свободни разработчици и е достъпен за няколко платформи: Unix/Linux, Windows, Macintosh, BeOS, OS/2, (освен че е освободен от всякакви такси и отчисления за авторски права) формат за компресия на музикални произведения (44.1 до 48.0 kHz, 16 и повече бита полифония). Големина (ширина) на цифровия поток (битрейт-bitrate) - oт 16-350+ Кбит/сек, по подразбиране се кодира с променлив цифров поток-Variable Bitrate-VBR. Разработва се и формат за компресия на видео.OGG Vorbis стандартът поддържа Surround Cnannels, а не само два стерео канала.

Заглавието OGG Vorbis е съставено от две части: "OGG" частта се отнася за проекта OGG Project, а Vorbis е мултимедийната open-source инициатива.

Форматът OGG съдържа в себе си различен от МР3 психоакустичен модел и включва в себе си някои нови неща. Например, ползувателя задава скоростта на кодиране, а кодерът се опитва да "смачка" данните максимално близо до тази стойност. Диапазонът варира от 8 до 512 Кбита/сек. (при МР3 горната граница е 320 Кбита/сек). Дали ни трябва толкова висока стойност на битрейта? Оказва се, че, да има композиции, при които дори използването на най-качествения за момента кодер за МР3 LAME при 320 Кбит/сек. не дава необходимия резултат.

Тук искам да вметна няколко думи за МР3. Разработеният от Fraunhofer Institute (Ерланген, Германия), форматът MPEG Layer3 (или МР3) от колектив под ръководството на Дитер Зайцер (Dieter Seitzer) и Хайнц Герхаузер (Heinz Gerhauser) в началото е бил безплатен. Но през септември 2000 г. съгласно новата лицензионна политика на Fraunhofer и нейния изключителен лицензиант Thomson Multimedia (който е и CO-developer) всички разработчици на хардуер и софтуер, използващ кода и алгоритмите МР3, следва да заплащат по $5 на копие/устройство на Fraunhofer. Отделно тези, предлагащи музика online, отделно от авторските отчисления следва да заплащат по 1 цент за всяка download-вана или разпространена по друг начин МР3 музика. Анонсирана е и нова подобрена версия на формата МР3, която освен с намаляване на размера на файла, се характеризира и с възможност за интегриране на "воден знак" вътре в композицията.

Така че всички, които досега под някаква форма са използвали формата за компресия MP3 (говорим за разработчиците на програмни обвивки (shell), игри и музикални сайтове), не само заради по-привлекателните акустични характеристики на OGG музиката, но и по финансови съображения, се обърна към OGG Vorbis формата. Другото огромно предимство пред МР3 формата е наличието на поддръжка на повече от два канала (освен L и R, както е при МР3). Както забелязвате, напоследък все по-голяма популярност получават аудиоплатки, поддържащи 4 и 6 канала. Мултиканалността ще е основно предимство в скоро време и при игрите, а и дисковото пространство също е от значение.

Както отбелязва Мофит, поради разликата в компресиращите алгоритми и акустичните модели, в сравнение с МР3, OGG Vorbis предлага по-малък размер на файла при запазване на същото качество, и по-добър звук при еднакви битрейти.

Да видим как стоят нещата със софтуерната поддръжка. Повечето сериозни разработчици на аудио софтуер, като SonicFoundry, Nullsoft, Sonique и др. или вече включват поддръжката на OGG Vorbis директно в програмите, или допускат това чрез допълнителни безплатни модули (plug-in). Бях много приятно изненадан от възможностите за всевъзможни преобразувания от и в OGG формат, който предлага новата версия на Sound Forge 5 (има и демо). Winamp v.2.74 започва да "разбира" OGG след добавянето на *.dll във фолдера му plugins. Soniq поддържа OGG Vorbis без допълнителни модули. По разбираеми причини не се планира поддръжката на OGG Vorbis в Windows Media Player-за какво им е на Microsoft да демонстрират предимствата на безплатен, и в много отношения по-добър формат?!?...Microsoft не представят SDK (Software Developments Kit) на трети разработчици, правейки невъзможно изработването и добавянето на plug-in за OGG Vorbis към Media Player. По този повод Мофит се изказа: "Като резултат това забавя прогреса в аудио индустрията като цяло".

И така, вече идва ред на сравненията. Ще сравняваме двата основни конкурента за титлата: MP3 и Ogg Vorbis. Microsoft WMA също присъства в сравненията, но тъй като като качество на звучене отстъпва на лидерите - MP3 и Ogg, поне в текущата му версия,остава на последно място.

За целите на изследването (тук няма да описвам подробно технологията, музикалните композиции, и, например, параметрите на АЧХ. В изследването на качеството на кодиране са използвани материали от трети източници (списък на коите има в края на статията), и собствени изследвания на автора. Използвани са новите версии на енкодерите (encoder-програма и/или устройство, използваща се за преобразовуване на информация от един формат във друг: PCM WAV в ISO MP3):


  • най-качествения за момента енкодер за MP3 - LAME, версия 3.88

  • Ogg Vorbis 1.0 бета 4

  • стандартен енкодер на Microsoft (работи под DOS)

В хода на изследването бяха обособени пет категории, свързани с различните широчини на звуковия поток (bitrate) (за VBR и AVR съответно се взима условната стойност):

  • 128 кбита/сек - широко разпространения в Интернет поради високата степен на компресия (респективно малкото време за зареждане)

  • 160 кбита/сек

  • 192 кбита/сек - междинен

  • 256 кбита/сек - битрейт за качествена музика

  • 320 (350-Ogg) кбита/сек - наистина Near CD audio

Използвани програми:

  • OrlSoft MPeg eXtension 2.0 - основно средство за кодиране на оригиналния материал

  • Audiograbber 1.8

  • Sound Forge 5.0

  • CD DAE 99.02

  • Win DAC 1.53

Тъй като енкодерът Ogg, както споменах по-рано, няма режим на фиксиран битрейт, така че вместо липсващия в текущата реализация 320 кбита/сек е използван 350 кбита/сек. За разлика от него, енкодерът на LAME позволява и фиксиран битрейт, и VBR, и AVR. При обстойното тестване специално на енкодера LAME се установи, че във всички случаи (за кой да е bitrate) е препоръчително използването на AVR - режима, даващ осезаемо по-добро качество в сравнение с константния битрейт.

Форматът MP3 не допуска кодирането на музикални албуми без паузи между отделните "парчета" (енкодера добавя служебна информация и паузи в началото и края на композицията). Ogg vorbis този проблем няма...


128 килобита/сек


За съжаление, за кодиране на целия честотен диапазон ширината на звуковия поток от 128 килобита/сек е недостатъчна за качествено звучане, и затова при кодирането се изрязват високите честоти. Разбира се, след това декодерът може изкуствено да ги компенсира, което, разбира се, отдалечава значително копието от оригинала.. Столът под доскорошния лидер в тази битрейтова категория - енкодерът на Fraunhofer, вече се клати...Новите версии на LAME, макар и да изрязват безпощадно честотите над 16500 Hz, с цел да се подобри слушаемостта в основния диапазон от честоти, при прослушване дават вече значително по-добър резултат от преди...Ето още едно доказателство в полза на open source...

Но определено композициите, кодирани с Ogg звучат по-добре...Да не забравяме, че все пак крайната цел на това изследване не е да се "удавим" в море от цифри и амплитудно-честотни характеристики, а да установим, в крайна сметка, след като така или иначе част от "оригиналната" информация на композицията се премахва, кое от дигиталните копия звучи по-добре.

WMA започва изрязването на високите от около 15 KHz, а над 20 kHz ги елиминира напълно. Единственото нещо, което не може да не му се признае на енкодера на Microsoft - това е двукратно и повече по-малкото време за компресиране. Но, както и в случая с печално известните с "качеството" си енкодери от Xing, за по-малкото време, респективно за бързината се заплаща с по-низкото качество.

ИЗВОД: Лидерът е OGG, който по-добре запазва при този режим низките и високите честоти, водещо в крайна сметка до по-добър звук в сравнение с енкодера LAME, който по-добре възпроизвежда средните частоти.

160 килобита/сек


При този bitrate вече е възможно кодирането на високите честоти до около 17 KHz. Лидерът и във тази категория е Ogg. При LAME се забелязва "метално" звучене на високите честоти и "замазване" на звука. За това си има и обяснение: енкодерът не се "справя" с вместването на по-широк честотен диапазон. Явно разработчиците на Ogg са подходили по различен начин, залагайки в акустичния модел потискане на различни от LAME честотни диапазони: потискайки възпроизвеждането на средните честоти, те подчертават ниските и високите, което води до по-добри субективни слушателски усещания.

Ако трябва да избираме между 128 и 160 кбита/сек...е, разликите в звученето се забелязват не само на добра апаратура. В краен случай, например, за обмен на музика чрез Интернет, е подходящ режимът 128 кбита/сек. Във всички останали случаи (тук говорим за несъвместимо със представите ми за качествено, звучене), препоръчвам използването на 160 кбита/сек (пък и разликата в големините на файловете не е толкова голяма).



ИЗВОД: Пак Ogg е на първо място. LAME го следва по петите, поне що се отнася до качеството.Разбира се, говорим за ABR - режима на LAME.

192 килобита/сек


Този битрейт е някакво междинно решение - нито е некачествен, като 128 кбита/сек, нито пък може да се мери с тях по обем, нито е толкова добре звучащ, като 256 кбита/сек. Пак присъства "металното" звучене в областта на високите честоти, като в този случай се запазва влошеното представяне на Ogg в областта на средните честоти, а на LAME - в областта на високите.

ИЗВОД: и двата енкодера имат различни, всеки в своята област, дефекти при кодиране на определени части от частотната лента. Поради тази причина се затруднявам да определя победител в тази категория - изберете който ви звучи на Вас по-добре!

256 килобита/сек


Този режим на кодиране, поне за мен, вече се доближава до представите ми за качествено цифрово копие на оригиналната композиция. Получават се прекрасно звучащи цифрови фонограми, при степен на компресия грубо 1:6 : нещо, което е приемливо за архивиране на музика. Този режим на кодиране представлява компромисно решение за тези, които искат качествена фонограма и същевременно не искат да използват по-обемистия, но по-качествен вариант 320/350 килобита/сек. При този битрейт Ogg потиска честотите над 18 kHz, кодирайки добре честотите в интервала между 15-18 kHz. Това се прави точно с тази цел: по-чуваемите от нас честоти да бъдат представени по-добре!

LAME, за разлика от Ogg, има параметри, позволяващи да се настрои "горния" праг на изрязване на честотите. Така че е възможно в фонограмата да бъдат включени и честоти над 18-19 kHz.



ИЗВОД: За мен и тук лидерът е Ogg, благодарения на добре разработения акустичен модел, позволяващ, потискайки високите честоти, да се постигне за сметка на това по-добро като цяло звучене. Вие трябва да изберете, кое бихте искали да получите - повече високи честоти (ако успеете да ги чуете) или чудесния резултат на енкодера на Ogg Vorbis.

320/350 килобита/сек


При този битрейт не се търси нищо друго, освен максималното съответствие с оригинала. И, както поне аз го чувам, тук фаворитите са два: OGG и LAME, поради невъзможността да определя еднозначно победителя. Явно при тези много високи битрейти, психоакистичните модели на разработчиците на LAME и OGG са наистина във много добро положение: след много опита да определя кой от форматите звучи по-добре аз се предадох: това би могло да се определи най-вероятно само спомощтана програми, сравняващи честотните характеристики на фонограмите.

ИЗВОД: Не успях да номинирам нито един от двата енкодера - LAME и Ogg, поради невероятно близко доближаващото се до оригиналното звучене качество на получения при компресирането резултат. На практика е невъзможно да се открие разлика между оригинала и компресираната фонограма при прослушването и, освен при положение, че се използва студийна апаратура и слушащия има наистина много добър слух.

Имайте предвид, че психоакустичните модели, използвани при изграждането на звука, получаван при кодирането му, постоянно се усъвършенстват. Това означава, че, например, следващата версия на emcoder-a на Microsoft, например, може да "даде" много по-добър резулатат от предишната, участвала в изследването ми, и да измести някой от сегашните фаворити.

Оценяването на композициите по звученето им по метода на прослушването носи известен процент субективизъм, така че донякъде по-добър резултат дава сравняването на амплитудно-честотните характеристики на фонограмите. Но пък, от друга страна, повечето от хората не се интересуват от това, как изглеждат кривите и доколко точно съвпадат, а се вълнуват от това, доколко добре звучи това, което го чуват. Точно за тях е направен този материал, не претендираш да бъде изцяло основан върху резултатите от измерванията, а включващ и личната слухова "оценка" на автора.

Ето малко линкове по темата, които са добра отправна точка въобще за "потапяне" в света на цифровата музика:



  • http://www.xiph.org/ogg/index.php

  • http://orlsoft.djbobo.ru/osmpx.asp

  • www.ogg.org

  • www.vorbis.org

  • www.mp3.com

  • www.7thzone.com

 

Термини:


  • MIDI - Musical Instrument Digital Interface

  • MPEG - Moving Pictures Expert Group

  • JPEG - Joint Photographic Group

  • RIAA - Recording Industry Assotoation of America

  • PCM - формат на запис върху CD (Pulse code Modulation)

  • ABR - Average Bitrate

  • VBR - Variable Bitrate



Сподели с приятели:




©obuch.info 2024
отнасят до администрацията

    Начална страница