POCETNA STRANA

Seminarski i Diplomski Rad
 

SEMINARSKI RAD IZ MULTIMEDIJE

 

AUDIO KOMPRESIJA

 

Digitalna audio kompresija omogućava efikasno skladištenje i prenos audio sadržaja. Audio kompresija se može podijeliti u dvije grupe:
• kompresija bez gubitaka (lossless compression)
• kompresija sa gubitkom (lossy compression)


Kompresija bez gubitaka

Kompresija bez gubitaka kompresuje audio sadržaj na takav način da se prilikom njegove dekompresije dobija signal koji je potpuno identičan početnom signalu. Iako ima svojih prednosti, ova vrsta kompresije nije postigla veću popularnost u digitalnoj audio kompresiji, prvenstveno zbog malog stepena kompresije koji se za zvuk CD kvaliteta (16 bita, 44.1 KHz) kreće između 30% i 50%. Tehnike kompresije bez gubitaka se uglavnom razlikuju po brzini audio kompresije i dekompresije dok kvalitet kompresovanog sadržaja nema nikakvu ulogu.


Kompresija sa gubicima

Zvuk koji se smatra „manje važnim“ je kodiran sa smanjenom preciznošču ili nije u opšte kodiran, zbog toga kompresija sa gubitkom smanjuje taj shvatljivi višak. Da bi se odredilo koje informacije u audio signalu su „manje važne“, većina algoritama kompresije sa gubitkom koriste transformacije kao što je modifikovana diskretna kosinusna transformacija (MDCT) da konvertuje vremenski domen semplovanog zvuka u domen frekvencije. Komponentama frekvencija mogu se alocirati bitovi na osnovu njihove zvučnosti. Zvučnost frekvencijske komponente se definiše tako što se prvo izračunava prag maskiranja ispod koje se pretpostavlja da je zvuk izvan limita ljudske percepcije (psiho-akustični model). Takođe neki algoritmi kompresije sa gubitkom koriste LPC (Linear Perceptive Coding) da konvertuju vremenski domen semplovanog zvuka.
Pošto kod kompresije sa gubitkom dolazi do opadanja kvaliteta audio zvuka, ova kompresija se smatra neodgovarajućom kod profesionalnih audio inžinjerskih aplikacija kao što je editiranje zvuka i multitrack snimanja zvuka. Međutim, ova kompresija je veoma pogodna za prenos i skladištenje audio podataka.


Moderne metode audio kompresije

Postoji nekoliko algoritama moderne kompresije i metoda za skladištenje audio sadržaja u kompjuterskoj tehnologiji:

• MP3 (MPEG-1 Layer-3)
Sastoji se od psihoakustičnog modela, FFT analiza, hibridnih filtera,
nelinearne kvantizacije, Huffman-ovog kodovanja, 2 kanala sa konstantnim
ili promjenjivim brzinama bita od 32 do 256 kb/s i koji je uspješno
implementiran u moderne CD/DVD i portabl plejere, mobilne telefone,...

• MP3 Pro
Kreiran od strane Coding Technologies Laboratory, zasniva se na
principima formiranja MP3 formata, sastoji se od SBR (Spectral Band
Replication) tehnologije koja koduje visoko frekventni opseg (od 10 do 15
kHz) sa veoma malom brzinom bita.

AAC (MPEG-2 Advanced Audio Coding)
Kreiran od strane AT&T, Dolbija, Fraunhofer IIS i Sonija, je ISO standard
MPEG-2 koji se sastoji od osnovnih principa MP3 formata uključujući
psihoakustični model, hibridne filtere, skalabilne brzine odmjeravanja, 2
kanala sa brzinama bita od 48 do 576 kbps.

• AAC Plus
Potiče od AAC formata, sastoji se od SBR-a sa brzinom bita do 100 kbps.

• WMA (Windows Media Audio)
Kreiran od strane Mikrosofta, sastoji se od DRM (Digital Rights Management),
CBR i VBR, WMA kodovanja digitalnog audia bez gubitaka (brzine bita 2:1
do 3:1), WMA profesionalno kodovanje višekanalnog audia (128 do 768 kbps)
i WMA za kodovanje glasa (od 4 do 20 kbps).

• VQF (Vector Quantization File)
Kreiran od strane NNT Human Interface Laboratories i Yamaha, nastao je
na osnovu MP3 principa, kompleksnijeg kodovanja, 25-35% bolja kompresija
u odnosu na MP3 kompresiju.

MPEG audio kompresija / MPEG-1 Layer-3 (MP3)

The Motion Picture Experts Group (MPEG) radna grupa je osnovana 1988. godine i definisala je standarde za video i audio kompresiju. Objavljen 1993. godine od strane International Standards Organization / International Electrotechnical Commission (ISO/IEC), MPEG-1, ISO/IEC 11172 standard uključuje specifikacije za 1-2 Mbps video kompresiju i tri sloja za audio kompresiju.
Termin MP3 je obično korišten kao referenca za MPEG-1 Layer-3 specifikaciju za audio kodovanje. MP3 standard definiše procese dekodovanja, format niza bita i strategiju kodovanja audio sadržaja. Samo jezgro algoritama i teoriju su prvobitno razvili na Fraunhofer Institutu, koji ima nekoliko patenata vezanih za ovaj metod kodovanja.
MPEG audio istraživači su izvršili obiman subjektivan slušalački test kroz razvoj ovog standarda. Test je pokazao da čak pri kompresiji 6:1 i pri optimalnim uslovima za slušanje, slušalački experti nisu bili u stanju da razlikuju kodirani i originalni audio klip.

Empirijski rezultati su takođe pokazali da ljudsko uho ima ograničenu frekvencijsku selektivnost koja varira u oštrini od nešto manje od 100Hz za najniže čujne frekvencije do nešto više od 4kHz za najviše. Prema tome čujni spektrum može biti podeljen na kritične opsege koji predstavljaju moć razlučivanja ljudskog uha kao funkcija zavisna od frekvencije.
Zbog toga što ljudsko uho ima ograničenu moć da razlikuje frekvencije, ta kritična tačka za maskiranje šuma bilo koje frekvencije jedino zavisi od aktivnosti signala u kritičnom opsegu te frekvencije. Za audio kompresiju, ova osobina odnosno to pravilo se može koristiti u transformisanju audio signala u domen frekvencija, zatim podeliti rezultajući spektrum u podopsege koji približno odgovaraju kritičnim opsezima i na kraju kvantifikovati svaki podopseg na osnovu čujnosti kvantifikovanog šuma koji se nalazi unutartog opsega. Za optimalnu kompresiju, svaki opseg bi trebao biti kvantifikovan sa ne većim brojem nivoa od potrebnog, da bi kvantifikovan šum bio nečujan.

 


MPEG audio kodovanje i dekodovanje

Ulazni audio signal prolazi kroz filter bank ( dio za filtriranje signala ) koji djeli ulazni signal na više različitih podopsega. Ulazni audio signal simultativno prolazi kroz psihoakustični model koji određuje signal-maska odnos za svaki podopseg.
Bit ili šum blok za dodjeljivanje, koristi odnos signal-maska kako bi pravilno odmjerio i dodjelio broj kodiranih bitova potrebnih za kvantifikaciju svih podopsega signala kako bi umanjio čujnost kvantifikovanog šuma. Na kraju, poslednji blok uzima tu reprezentaciju kvantifikovanog audio sempla i formira bitove koje je moguće dekodirati.
Dekoder jednostavno vrši obrnuto formiranje, zatim rekonstruiše kvantifikovane vrednosti svih podopsega u vremenski domen audio signala.
MPEG audio standard ima tri sloja (layers) za kompresiju. Layer I formira najednostavniji algoritam, a Layer II i Layer III su nastavci koji koriste neke elemente iz Layer I. Svaki od ovih slojeva pobojšava perfomanse kompresije na uštrb veće kompleksnosti kodera i dekodera.

 

LAYER I

Layer I algoritam koristi osnovni filter bank koji se može naći u svim ostalim slojevima. Ovaj filter bank dijeli audio signal na 32 jednaka frekvencijska opsega. Prva, 32 frekvencijska opsega ne reflektuju tačno kritične opsege kod ljudskog uha. Opseg je suviše širok za niske frekvencije tako da broj kvantifikovanih bitova ne može biti posebno namešten na osetljivost na šum u svakom kritičnom opsegu. Filter bank proizvodi 32 frekvencijska sempla, jedan sempl po opsegu, za svaki od 32 audio sempl ulaza. Layer I algoritam zajedno grupiše 12 semplova za svaki od 32 opsega.

Svakoj grupi od 12 semplova se dodjeljuje jedan bit i (ako bit nije nula) faktor skaliranja. Dodjeljivanje bita određuje broj bitova koji predstavljaju svaki sempl. Faktor skaliranja je umnožak koji određuje veličinu sempla da bi maksimizovao rezoluciju kvantifikatora. Layer I koder formira 32 grupe po 12 semplova (ukupno 384 semplova) u jedan frejm. Pored audio podatka, svaki frejm sadrži header i CRC (eng. cyclic redundancy code) proveru i moguće dodatne podatke.

LAYER II

Layer II algoritam je jednostavno proširenje Layer I. Poboljšava perfomanse kompresije kodirajući podatke u veće grupe. Layer I kodira podatke u pojedinačne grupe po 12 sempla za svaki podopseg, a Layer II kodira podatke u 3 grupe od 12 seplova za svaki podopseg. Koder vrši kodiranje sa jedinstvenim faktorom skaliranja za svaku grupu od 12 seplova jedino ako je neophodno da se izbegne audio distorzija. Koder dijeli vrednost faktora skaliranja između dve ili tri grupe samo u dva slučaja: (1) kada su vrednosti faktor skaliranja dovoljno blizu (2) kada koder očekuje da će privremeno maskiranje šuma ljuskog uveta sakriti konsekventu diztorziju.Layer II algoritam takođe pobojšava perfomanse Layer I reprezentacijom alokacije bita, vrednostima faktora skaliranja i kodiranjem kvantifikacije semplova efikasnijim kodom.

LAYER III

Layer III algoritam je mnogo finiji pristup. Iako je zasnovan na istom filter bank-u kao i Layer I i Layer II, Layer III vrši kompenzaciju nekih nedostataka u filter bank-u tako što procesuira izlaze iz filter bank-a sa modifikovanom diskretnom kosinusnom transformacijom ( MDCT ).

MDCT dalje dijeli izlaze filter bank-a na frekvencije da bi obezbedio bolju spektralnu rezoluciju. Zbog neizbježnog “trgovanja“ između vremenske i frekvetne rezolucije, Layer III specifira dvije različite veličine MDCT bloka. Dugački blok od 36 sempla i kraći blok od 12 sempla. Kratak blok poboljšava vremensku rezoluciju da bi se bolje suočio sa tranzientima. Blok kratke dužine cini jednu trećinu dugog bloka.

Layer III ima tri stanja blokiranja, dva stanja gde 32 filter bank izlaza prolaze kroz MDCT sa istom dužinom bloka i mešoviti blok stanje gde se 2 donja frekvetna opsega koriste dugačke blokove, a 30 gornjih koriste kratke blokove.


Karakteristike MP3 kompresije

MPEG standard za audio kompresiju prihvata audio sadržaj snimljen na 32 kHz, 44.1 kHz i 48 kHz. Standardni digitalni Compact Disk (CD) sadrži dva kanala nekompresovanih 16-bitnih PCM (Pulse Code Modulation) podataka odmjerenih na 44.1 kHz. U ovom formatu, svaki odmjerak predstavlja određeni napon u jednom trenutku vremena. Rezultujući niz bita zahtjeva prolaz podataka od 1.411 Mbps da bi se obavio prenos ovog audio sadržaja. Dobro kodovan MP3 sadržaj može dostići približan CD kvalitet audio reprodukcije pri brzini podataka od 128 Kbps.

Budući da su karakteristike ljudskog vida i sluha veoma različite, za kompresiju zvuka se koriste potpuno drugačiji algoritmi kompresije. Uho ima puno veći dinamićki opseg i rezoluciju ali je "sporije".

FILE Format

MPEG standard definiše prezentaciju audio sadržaja. Osim toga, MPEG također dobro definiše kako pretvoriti kodovan audio sadržaj u niz bita sa sinhronizacijom i zaglavljem dovoljnim za normalno dekodovanje bez ikakvih dodatnih informacija dodatih u dekoderu.


MPEG-1/2 Layer-3 format zaglavlja

MPEG-1/2 definiše format zaglavlja koji je sadržan u svakom frejmu (svake 24 ms na frekvenciji odmjeravanja od 48 kHz). Zaglavlje, pored ostalog sadrži slijedeće podatke:

• Sync word
Za razliku od drugih standarda, sync word može takođe da sadrži audio podatke. Rutina za sinhronizaciju treba da provjeri prisustvo više od jednog sync word na određenoj udaljenosti i u slučaju da postoji više od jednog sync word treba da izvrši resinhronizaciju.

• Bit-rate
Bit-rate je uvijek zadat za cijeli audio sadržaj a ne po kanalima. U slučaju Layer-3, dozvoljeno je prebacivanje bit-rate u pokretu, prateći bit-rate kodovanje.

• Sampling frequency
Na osnovu frekvencije odmjeravanja vrši se prebacivanje hardware-skog ili software-skog dekodera na različite frekvencije odmjeravanja, kao npr. 32 kHz, 44.1 kHz ili 48 kHz u slučaju MPEG-1.

• Layer
Zaglavlje sadrži informaciju koja upućuje na to o kojem sloju se radi Layer-1, Layer-2 ili Layer-3 i da li je u pitanju MPEG-1 ili MPEG-2.

• Coding mode
Kao fiksni parametar, mod kodovanja pravi razliku između mono, dual mono, stereo ili join stereo kodovanja.

• Copy protection
Svako zaglavlje nosi dva bita za SCMS (Serial Copy Management Scheme). Od kada je omogućeno laka manipulacija sa ovim bitima putem software, praktična važnost ovog načina zaštite od kopiranja je minimalna.

Vizuelni prikaz zaglavlja MP3 formata

Zašto MP3 kompresija ?

U potrazi za razlozima „zašto koristiti MP3“ a ne neku drugu tehnologiju za kompresiju, MP3 se nameće kao glavni alat za isporuku audio sadržaja preko Interneta i to iz sljedećih razloga:

Otvoreni standard
MPEG je definisan kao otvoreni standard. Specifikacija je na raspolaganju (besplatno) svima koji su zainteresovani za implementaciju ovog standarda. Iako postoje brojni patenti koji pokrivaju MPEG audio kodovanje i dekodovanje, svi vlasnici patenata su se obavezali da ce dozvoliti upotrebu patenata svima pod razumnim uslovima.

Podržavajuće tehnologije
Čim je audio kompresija uočena kao glavna tehnologija, došlo je do naglog širenja zvučnih kartica, računari su postali dovoljno brzi da bi obavili kodovanje i dekodovanje, zvučni zapisi se naglo prebacuju sa normalnog audio formata na MP3 (razlog za to je ušteda memorije),...

Ukratko, MP3 je bila prava tehnologija u pravo vrijeme.

Ukratko o MP3 kompresiji

MP3 (i slicne kompresije) se zasnivaju na uklanjanju "suvišnih" harmonika (pošto čovjek čuje samo određen mali broj). Na osnovu toga, programi poput auCDtect-a lako detektuju da li je pjesma "original studio recording" ili "decoded MPEG". Algoritmi uklanjaju i suvišne dijelove iz bučnijih dionica koje čovjek takođe ne može da utvrdi.
MP3 kompresija spada u grupu perceptualnih kodera i jedan od principa, tačnije primarni princip na kome se zasniva su psihoakustični efekti. Jedan od njih je maskiranje frekvencija. Može biti frekvencijsko i vremensko maskiranje. Frekvencijsko je kada postoje dva signala bliska po frekvenciji od kojih je jedan jači, tako da uho ne može da čuje ovaj slabiji, a što se tiče vremenskog, stvar je u tome da čak i kad taj jači signal prestane, treba da protekne jedan određeni dio vremena dok uho ne "uhvati" taj slabiji signal. Uklanjanjem tih "nepotrebnih" signala (koje uho ne čuje) smanjuje se i veličina fajla. Dakle algoritam u enkoderu ima za cilj da napravi što bolji psihoakustični model, sa što manje gubitaka u kvalitetu zvuka i to primeni na sam zvučni zapis.

Okvirni prikaz kako kodiramo MPEG-1 Layer-3 ( MP3 )

fs = 44100; % frekvencija
fnyq = fs/2; % Nyquistov odnos
order = 200; % stepen FIR filtera
R_down = 8; % downsampling stepen
R_up = 8; % upsampling stepen
divisor_0 = 1; % djelitelj za svaki podopseg, koji nam simulira gubitak pri kompresiji
divisor_1 = 4;
divisor_2 = 4;
divisor_3 = 8;
divisor_4 = 256;
divisor_5 = 256;
divisor_6 = 256;
divisor_7 = 256;

[z]=wavread('sound2.wav');

W0 = [0.0001/fnyq 2756.25/fnyq]; % Razbijemo spektar na 8 jednakih delova širine 2756.25 Hz
B0 = fir1(order, W0);
W1 = [2756.25/fnyq 5512.5/fnyq];
B1 = fir1(order, W1);
W2 = [5512.5/fnyq 8268.75/fnyq];
B2 = fir1(order, W2);
W3 = [8268.75/fnyq 11025/fnyq];
B3 = fir1(order, W3);
W4 = [11025/fnyq 13781.25/fnyq];
B4 = fir1(order, W4);
W5 = [13781.25/fnyq 16537.5/fnyq];
B5 = fir1(order, W5);
W6 = [16537.5/fnyq 19293.75/fnyq];
B6 = fir1(order, W6);
W7 = [19293.75/fnyq 22049/fnyq];
B7 = fir1(order, W7);

y0 = conv(B0, z); % konvolucijska funkcija
y1 = conv(B1, z);
y2 = conv(B2, z);
y3 = conv(B3, z);
y4 = conv(B4, z);
y5 = conv(B5, z);
y6 = conv(B6, z);
y7 = conv(B7, z);

% Downsample the bands
y0 = y0 * 256;
y1 = y1 * 256;
y2 = y2 * 256;
y3 = y3 * 256;
y4 = y4 * 256;
y5 = y5 * 256;
y6 = y6 * 256;
y7 = y7 * 256;
d0 = round((downsample(y0, R_down))/divisor_0);
d1 = round((downsample(y1, R_down))/divisor_1);
d2 = round((downsample(y2, R_down))/divisor_2);
d3 = round((downsample(y3, R_down))/divisor_3);
d4 = round((downsample(y4, R_down))/divisor_4);
d5 = round((downsample(y5, R_down))/divisor_5);
d6 = round((downsample(y6, R_down))/divisor_6);
d7 = round((downsample(y7, R_down))/divisor_7);

% upsample the downsampled bands
d0 = d0 / 256;
d1 = d1 / 256;
d2 = d2 / 256;
d3 = d3 / 256;
d4 = d4 / 256;
d5 = d5 / 256;
d6 = d6 / 256;
d7 = d7 / 256;
u0 = upsample(d0, R_up);
u1 = upsample(d1, R_up);
u2 = upsample(d2, R_up);
u3 = upsample(d3, R_up);
u4 = upsample(d4, R_up);
u5 = upsample(d5, R_up);
u6 = upsample(d6, R_up);
u7 = upsample(d7, R_up);

f0 = conv(B0, u0); % upotreba anti-aliasing filtera
f1 = conv(B1, u1);
f2 = conv(B2, u2);
f3 = conv(B3, u3);
f4 = conv(B4, u4);
f5 = conv(B5, u5);
f6 = conv(B6, u6);
f7 = conv(B7, u7);

% sabiramo rezultate da bi dobili originalni signal
output= 8*(divisor_0*f0+divisor_1*f1+divisor_2*f2+divisor_3*f3+divisor_4*f4+divisor_5*f5+divisor_6*f6+divisor_7*f7);
wavwrite(output,fs,'output.wav');

Originalni signal *.wav


Rezultat simulacije:


Ako pogledamo oba signala na gornjim slikama vidjećemo sljedeće:
- prva slika pokazuje originalni zvučni signal u WAV formatu
- druga slika pokazuje rezultat simulacije u Matlab-u koji je snimljen u WAV formatu jer Matlab ne može da radi sa MP3 formatom. Na drugoj slici možemo vidjeti simulaciju gubitaka prilikom MP3 kompresije. Zvučni detalji koji su uočljivi na prvoj slici a koji vremenski kratko traju u toku kompresije su „ispeglani“. To su detalji koje ljudsko uho ne čuje ili čuje ali veoma slabo pa se ti detalji u toku kompresije gube.

Primjer programa za konverziju audio sadržaja

  • Audacity
    Ovaj program ima mogućnosti importovanja fajlova u WAV
    Audacity formatu i MP3 formatu. Može da vrši konverziju između ova dva
    formata uz dodatno detaljno podešavanje parametara svakog od
    njih. Sadrži brojne efekte za obradu zvuka i podržava snimanje
    materijala direktno sa mikrofona.

 

 

Ovaj program je namjenjen prvenstveno konverziji zvučnih
fajlova iz jednog formata u drugi. Podržava sljedeće formate:
wav, mp1, mp2, mp3, mp4, m4a, ogg, aac, ape, flac, wma.
Omogućava dodavanje detalja uz svaki zvučni zapis kao što su
autor, izvođač, žanr, godina izdavanja, ...
Ima mogućnost ripovanja audio CD-ova i kreiranja audio Cd-ova.

Zaključak


MP3 je zaslužan za revoluciju u muzičkoj industriji na sličan način na koji je početkom osamdesetih tu revoluciju izazvao kompakt disk. CD-ovi su doneli diskografskoj industriji odgroman profit, prodajući ljubiteljima muzike istu stvar po nekoliko puta, dok je nagla popularnost razmjene muzike preko Interneta, za šta najviše možemo da zahvalimo MP3 formatu, izazvala pravu paniku u muzičkom svetu. MP3, naime, ne podržava nikakve mehanizme za kontrolu kopiranja, pa je razumljivo zašto diskografska industrija želi da ovaj format zameni "nečim sigurnijim". I dok kompanije Microsoft, Real Networks i Apple već imaju svoje predloge rešenja, audiofili i ljubitelji novih tehnologija takođe su se upustili u istraživanje alternativa, nezadovoljni ograničenjima MP3 formata.

PROČITAJ / PREUZMI I DRUGE SEMINARSKE RADOVE IZ OBLASTI:
ASTRONOMIJA | BANKARSTVO I MONETARNA EKONOMIJA | BIOLOGIJA | EKONOMIJA | ELEKTRONIKA | ELEKTRONSKO POSLOVANJE | EKOLOGIJA - EKOLOŠKI MENADŽMENT | FILOZOFIJA | FINANSIJE |  FINANSIJSKA TRŽIŠTA I BERZANSKI    MENADŽMENT | FINANSIJSKI MENADŽMENT | FISKALNA EKONOMIJA | FIZIKA | GEOGRAFIJA | INFORMACIONI SISTEMI | INFORMATIKA | INTERNET - WEB | ISTORIJA | JAVNE FINANSIJE | KOMUNIKOLOGIJA - KOMUNIKACIJE | KRIMINOLOGIJA | KNJIŽEVNOST I JEZIK | LOGISTIKA | LOGOPEDIJA | LJUDSKI RESURSI | MAKROEKONOMIJA | MARKETING | MATEMATIKA | MEDICINA | MEDJUNARODNA EKONOMIJA | MENADŽMENT | MIKROEKONOMIJA | MULTIMEDIJA | ODNOSI SA JAVNOŠĆU |  OPERATIVNI I STRATEGIJSKI    MENADŽMENT | OSNOVI MENADŽMENTA | OSNOVI EKONOMIJE | OSIGURANJE | PARAPSIHOLOGIJA | PEDAGOGIJA | POLITIČKE NAUKE | POLJOPRIVREDA | POSLOVNA EKONOMIJA | POSLOVNA ETIKA | PRAVO | PRAVO EVROPSKE UNIJE | PREDUZETNIŠTVO | PRIVREDNI SISTEMI | PROIZVODNI I USLUŽNI MENADŽMENT | PROGRAMIRANJE | PSIHOLOGIJA | PSIHIJATRIJA / PSIHOPATOLOGIJA | RAČUNOVODSTVO | RELIGIJA | SOCIOLOGIJA |  SPOLJNOTRGOVINSKO I DEVIZNO POSLOVANJE | SPORT - MENADŽMENT U SPORTU | STATISTIKA | TEHNOLOŠKI SISTEMI | TURIZMOLOGIJA | UPRAVLJANJE KVALITETOM | UPRAVLJANJE PROMENAMA | VETERINA | ŽURNALISTIKA - NOVINARSTVO