MP3

Z Wikipedii, wolnej encyklopedii
(Przekierowano z Mp3)
Przejdź do nawigacji Przejdź do wyszukiwania

MP3 (ang. MPEG-1/MPEG-2 Audio Layer 3) – algorytm kompresji stratnej dźwięku zapisanego w postaci sygnału cyfrowego. Popularnie zwany formatem MP3 lub standardem MP3. Jest zdefiniowany przez Internet Engineering Task Force (IETF) w dokumencie RFC 5219 ↓. Ochrona patentowa formatu MP3 we wspólnocie wygasła w 2012, w kwietniu 2017 wygasł ostatni patent chroniący MP3 w Stanach Zjednoczonych. Częściową ochronę zapewniały dwa patenty, które wygasły w 2017. W związku z tym zakończono wydawanie licencji.

Rozszerzenie – sposób oznaczania typu pliku za pomocą sufiksu jego nazwy. Rozszerzenie jest oddzielone od reszty nazwy za pomocą kropki. Ponieważ w nowoczesnych systemach nazwa pliku może sama w sobie zawierać kropki, przyjmuje się, że rozszerzeniem jest część nazwy po ostatniej kropce, a samo rozszerzenie nie zawiera kropek.Napięcie elektryczne – różnica potencjałów elektrycznych między dwoma punktami obwodu elektrycznego lub pola elektrycznego. Symbolem napięcia jest U. Napięcie elektryczne jest to stosunek pracy wykonanej podczas przenoszenia ładunku elektrycznego między punktami, dla których określa się napięcie, do wartości tego ładunku. Wyraża to wzór

Informacje ogólne[ | edytuj kod]

Standardy MPEG-1 i MPEG-2 są przeznaczone do kompresji ruchomych obrazów oraz towarzyszącego im dźwięku. W ich realizacji wykorzystano algorytm zmodyfikowanej dyskretnej transformacji cosinusowej. Standardy te oferują możliwość kompresji strumienia danych reprezentującego dźwięk na trzy sposoby, tzw. warstwy (ang. layer): Layer 1, Layer 2 i Layer 3. Sposób „Layer 3”, charakteryzujący się najwyższym stopniem kompresji i dobrą jakością dźwięku, został następnie wykorzystany do zapisu (utrwalania) dźwięku cyfrowego jako format lub standard MP3.

Zmienna przepływność (ang. Variable Bit Rate, VBR) jest określeniem stosowanym w telekomunikacji oraz informatyce.PCM (ang. Pulse Code Modulation) – to najpopularniejsza metoda reprezentacji sygnału analogowego w systemach cyfrowych. Używana jest w telekomunikacji, w cyfrowej obróbce sygnału (np. w procesorach dźwięku), do przetwarzania obrazu, do zapisu na płytach CD (CD-Audio) i w wielu zastosowaniach przemysłowych.

Standard MP3 ujrzał światło dzienne w grudniu 1991 roku, przede wszystkim w ramach działań prowadzonych przez niemieckie stowarzyszenie naukowo-badawcze występujące pod nazwą Stowarzyszenie Fraunhofer (Fraunhofer IIS).

Pliki zawierające dane w tym formacie otrzymują zwyczajowo rozszerzenie „mp3”.

Opis działania[ | edytuj kod]

Dźwięk może zostać zapisany na wiele sposobów (np. mechaniczny, elektromechaniczny, optyczny, cyfrowy). Jednym z nich jest zamiana fal dźwiękowych w proporcjonalne zmiany napięcia lub natężenia prądu elektrycznego. Uzyskany w ten sposób sygnał analogowy dźwięku może zostać przekształcony do postaci sygnału cyfrowego. Przekształcenia dokonuje się za pomocą przetwornika analogowo-cyfrowego. Podczas konwersji sygnału analogowego na cyfrowy należy pamiętać o częstotliwości Nyquista, która jest równa połowie częstotliwości próbkowania. Oznacza to, że dla częstotliwości próbkowania 44,1 kHz częstotliwość Nyquista to 22,05 kHz (44,1:2=22,05). Jest ona najwyższą częstotliwością dźwięku możliwą do zapisania przy częstotliwości próbkowania 44,1 kHz. W celu wykonania zapisu w postaci cyfrowej, dźwięk w postaci sygnału analogowego jest przepuszczany przez filtr dolnoprzepustowy o odcięciu w granicach 20-22kHz (ograniczenie pasma), a następnie próbkowany z częstotliwością 44,1 kHz i rozdzielczością 16 bitów. Wytwarza to strumień danych o przepływności ok. 1,5 Mb/s dla sygnału stereofonicznego i jest to zapis dźwięku w nieskompresowanym formacie (zob. np. PCM, WAV, AIFF, CD-Audio). Aby zmniejszyć ilość danych należałoby zmniejszyć częstotliwość próbkowania lub/i rozdzielczość, ale to może powodować zbyt dużą różnicę w porównaniu do oryginalnego sygnału, nieakceptowalną dla słuchacza. Wykorzystuje się więc specyficzne właściwości ludzkiego słuchu i dlatego w standardzie MP3 używane są modele psychoakustyczne w celu osiągnięcia pożądanego stopnia kompresji stratnej. Polega to na usunięciu tych informacji z dźwięku, które są niezauważalne lub mało istotne dla słuchu człowieka. Z modeli psychoakustycznych wynika, że człowiek najlepiej słyszy dźwięki z przedziału około 2-4 kHz (mowa). Im częstotliwość dźwięku bardziej odbiega od tego pasma, tym słyszalność jest słabsza (zob. granice słyszalności). Zatem, jeżeli fala akustyczna, wraz z szumem kwantyzacji, będzie cichsza od dolnej granicy słyszalności, to nie będzie on słyszalny. Z tego wynika, że skrajne częstotliwości mogą zostać zapisane z mniejszą dokładnością, przy mniejszej rozdzielczości bitowej, a nawet częściowo usunięte. Ze wspomnianego modelu słuchu człowieka wynika również zjawisko maskowania – w uproszczeniu dźwięki głośniejsze zagłuszają cichsze. W pobliżu głośnych dźwięków (tzn. podobna częstotliwość tuż przed i tuż po wystąpieniu tego dźwięku) również można zmniejszyć liczbę bitów, ponieważ szum kwantyzacji nie będzie słyszalny. Człowiek słyszy dźwięki o częstotliwości do 20 kHz, jednak często w praktyce elektroakustycznej granicę tę określa się na poziomie 16 kHz. Uwzględniono to w standardzie MP3 stosując filtr dolnoprzepustowy, dzięki czemu dźwięki o częstotliwości powyżej 16 kHz są w większości usuwane.

Sygnał cyfrowy – sygnał, którego dziedzina i zbiór wartości są dyskretne. Jego odpowiednikiem o ciągłej dziedzinie i ciągłym zbiorze wartości jest sygnał analogowy. Znaczenie tego terminu może odnosić się do:Kompresja danych (ang. data compression) – polega na zmianie sposobu zapisu informacji tak, aby zmniejszyć redundancję i tym samym objętość zbioru. Innymi słowy chodzi o wyrażenie tego samego zestawu informacji, lecz za pomocą mniejszej liczby bitów.

W pierwszym etapie konwersji na format MP3, wejściowy sygnał cyfrowy, pobrany np. z pliku w formacie WAV, o szerokości pasma 20 Hz – 20 kHz, jest dzielony na 576, odpowiednio węższych pasm częstotliwościowych, za pomocą cyfrowych filtrów w procesie cyfrowego przetwarzania sygnałów. W rezultacie otrzymuje się 576 odrębnych sygnałów. Pasmo każdego z nich jest 576 razy węższe od wejściowej szerokości pasma, zatem do próbkowania można użyć odpowiednio niższej częstotliwości.

Słuch – zmysł umożliwiający odbieranie (percepcję) fal dźwiękowych. Narządy słuchu nazywa się uszami. Słuch jest wykorzystywany przez organizmy żywe do komunikacji oraz rozpoznawania otoczenia.ABR (ang. Available Bit Rate) – maksymalna możliwa przepływność, po odjęciu przez ewentualne inne transmisje zachodzące w danym czasie w tym samym medium transmisyjnym. ABR jest stosowane w telekomunikacji oraz informatyce, najczęściej w sieciach. Ten tryb transmisji wykorzystuje np. sieć Hiperlan 2.

Kodek MP3 analizuje poszczególne pasma i na podstawie modelu psychoakustycznego określa z jaką dokładnością należy zakodować każde z nich i czy jest potrzeba uwzględnienia danego pasma. W ten sposób znacznie ograniczono ilość bitów potrzebnych do zakodowania, a szum kwantyzacji, mimo że znacznie większy niż w oryginale, jest tak ukształtowany, że jest niesłyszalny. Ponadto, powstałe dane zapisuje się w postaci zmiennoprzecinkowej, co dodatkowo zmniejsza ich rozmiar.

Model psychoakustyczny – model matematyczny, mówiący, jakie informacje o dźwięku są rozpoznawalne przez ludzkie ucho, jakie natomiast nie są. Modele psychoakustyczne są podstawą między innymi kompresji dźwięku, algorytmów oceny jakości transmisji mowy, systemów automatycznie rozpoznających mowę oraz rozpoznających mówców.Internet Engineering Task Force to nieformalne, międzynarodowe stowarzyszenie osób zainteresowanych ustanawianiem standardów technicznych i organizacyjnych w Internecie.

Tak przygotowane dane łączy się, dodając dane sterujące umożliwiające odkodowanie dźwięku, na końcu poddaje się je kompresji bezstratnej i powstaje plik dźwiękowy w formacie MP3.

Często okazuje się, że użytkownik kodeka, wymuszając jego stałą przepływność, nie zapewnia warunków dla odpowiednio wiernego (dokładnego) zakodowania cyfrowego sygnału dźwiękowego. Dlatego, jeśli po kompresji okaże się, że rozmiar danych przekracza założenia, zmniejsza się liczbę bitów, w których koduje się pasma. Stąd najlepsze efekty jakościowe dają kompresory działające ze zmienną przepływnością, oszczędzając miejsce na dane, a zwiększając przepływność wtedy, gdy to jest konieczne dla zachowania jakości (percepcyjnej zgodności skompresowanego dźwięku z oryginałem). Jakość dźwięku ponadto zależy od zastosowanego modelu psychoakustycznego oraz od słuchacza. Jeśli jego słuch będzie odbiegał od modelu psychoakustycznego używanego w kodeku, jakość dźwięku może zostać przez niego oceniona jako różniąca się od oryginału. W celu zbadania percepcji jakości skompresowanego dźwięku stosuje się metodę badawczą określaną jako podwójnie ślepa próba.

Fala akustyczna – rozchodzące się w ośrodku zaburzenie gęstości (i ciśnienia) w postaci fali podłużnej, któremu towarzyszą drgania cząsteczek ośrodka. Ośrodki, w których mogą się poruszać, to ośrodki sprężyste (ciało stałe, ciecz, gaz). Zaburzenia te polegają na przenoszeniu energii mechanicznej przez drgające cząstki ośrodka (zgęszczenia i rozrzedzenia) bez zmiany ich średniego położenia.MPEG-2 – grupa standardów stratnej kompresji ruchomych obrazów i dźwięku zatwierdzona przez MPEG (ang. Moving Picture Experts Group) w 1994 roku. Od roku 1995 jest zatwierdzonym standardem ISO/IEC nr 13818.


Podstrony: 1 [2] [3] [4]
Warto wiedzieć że... beta

Częstotliwość (częstość) – wielkość fizyczna określająca liczbę cykli zjawiska okresowego występujących w jednostce czasu. W układzie SI jednostką częstotliwości jest herc (Hz). Częstotliwość 1 herca odpowiada występowaniu jednego zdarzenia (cyklu) w ciągu 1 sekundy. Najczęściej rozważa się częstotliwość w ruchu obrotowym, częstotliwość drgań, napięcia, fali.
Granice słyszalności – skrajne (górna i dolna) częstotliwości fal dźwiękowych oraz dolna i górna wartość poziomu ciśnienia akustycznego dźwięków, które są słyszalne przez ucho ludzkie.
Próbkowanie (dyskretyzacja, kwantowanie w czasie) - proces tworzenia sygnału dyskretnego, reprezentującego sygnał ciągły za pomocą ciągu wartości nazywanych próbkami. Zwykle jest jednym z etapów przetwarzania sygnału analogowego na cyfrowy.
RFC (ang. Request for Comments – dosłownie: prośba o komentarze) – zbiór technicznych oraz organizacyjnych dokumentów mających formę memorandum związanych z Internetem oraz sieciami komputerowymi. Każdy z nich ma przypisany unikatowy numer identyfikacyjny, zwykle używany przy wszelkich odniesieniach. Publikacją RFC zajmuje się Internet Engineering Task Force.
Kompresja bezstratna (ang. lossless compression) – ogólna nazwa metod kompresji informacji do postaci zawierającej zmniejszoną liczbę bitów, pod warunkiem, że metoda ta gwarantuje możliwość odtworzenia informacji z postaci skompresowanej do identycznej postaci pierwotnej.
Kompatybilność wsteczna − cecha standardu, urządzenia lub oprogramowania, dzięki której - mimo zmiany funkcjonalności - nowa wersja umożliwia współpracę z całym otoczeniem starej wersji i jej wszystkimi komponentami. Mówi się wtedy o rozszerzeniu funkcjonalności.
Plik danych, plik komputerowy, zwykle krótko plik – uporządkowany zbiór danych o skończonej długości, posiadający szereg atrybutów i stanowiący dla użytkownika systemu operacyjnego całość. Nazwa pliku nie jest jego częścią, lecz jest przechowywana w systemie plików.

Reklama