Strona kodowa

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Strona kodowa – wariant przypisania poszczególnym kodom binarnym różnych znaków pisarskich w ramach danego systemu kodowania.

Interpunkcja – graficzny odpowiednik intonacji, rytmu i tempa mowy, akcentu wyrazowego i zdaniowego. Stanowi ją zbiór znaków (we współczesnej polszczyźnie jest ich 10), inaczej zwanych znakami przestankowymi, uzupełniających zapis literowy tekstu. Nie odpowiadają one ani fonemom języka mówionego, ani leksemom. Znaki te pozwalają na odzwierciedlenie w tekście pisanym zależności składniowych między członami wypowiedzenia lub między wypowiedzeniami, na wyodrębnienie, podkreślenie – ze względów znaczeniowych lub emocjonalnych – pewnych wyrazów lub fragmentów tekstu, a także na ujednoznacznienie tekstu pisanego.Unicode – komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy – Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób składu.

IBM wprowadził ośmiobitowe rozszerzone kody ASCII na oryginalnym komputerze IBM PC, a później wyprodukował odmiany dla różnych języków i kultur. IBM nazwał takie zestawy znaków stronami kodowymi i przypisał numery zarówno tym, które sami wymyślili, jak i wielu wymyślonym i używanym przez innych producentów. W związku z tym zestawy znaków są bardzo często wskazywane przez numer strony kodowej IBM. W stronach kodowych zgodnych z ASCII dolne 128 znaków zachowało swoje standardowe wartości US-ASCII, a różne strony (lub zestawy znaków) można było udostępnić z górnymi 128 znakami.

UTF-16 (ang. 16-bit Unicode Transformation Format) – w informatyce jeden ze sposobów kodowania znaków standardu unicode. Sposób ten wymaga użycia szesnastobitowych słów (ang. word), przy czym dla znaków na pozycjach poniżej 65536 (przedział 0000-FFFF) używane jest jedno słowo, którego wartość odpowiada pozycji znaku w standardzie. Dla znaków z wyższych pozycji używa się dwóch słów. Pierwsze z nich należy do przedziału D800–DBFF, drugie: DC00-DFFF. Na przykład znak o kodzie szesnastkowym 10000 zostanie zamieniony na sekwencję D800 DC00 a znak o kodzie 10FFFD (górna granica unikodu) na DBFF DFFD. W standardzie Unicode pozycjom z przedziału D800–DFFF nie są przypisane żadne znaki, zatem każda sekwencja słów kodowych jest interpretowana jednoznacznie.UTF-8 – system kodowania Unicode, wykorzystujący od 8 do 32 bitów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII.

Różne strony kodowe przyjmują dla tego samego kodu odmienne znaki, a ponadto różnią się samymi zestawami znaków. W zależności od wyboru strony kodowej, ten sam dokument może być czytelny, mogą być trudności z jego odczytaniem albo też nie będzie można go w ogóle odczytać. Jeśli dokument nie jest czytelny, to potocznie mówi się, że wyświetla „robaki” lub „krzaczki”.

Bajt (dop. bajtu lub bajta) – najmniejsza adresowalna jednostka informacji pamięci komputerowej, składająca się z bitów.

W przeszłości kody binarne były opisane na bajtach, zwykle ośmiobitowych, co dawało możliwość zakodowania maksymalnie 256 różnych znaków (czasami trzeba było ten zbiór uszczuplić jeszcze bardziej o tzw. kody sterujące). Była to liczba dalece niewystarczająca dla umieszczenia w jednym zestawie znaków ze wszystkich alfabetów, nie mówiąc już o innych znakach, jak semigrafika, cyfry, znaki interpunkcyjne i szereg innych znaków specjalnych. Rezultatem było istnienie tak wielu stron kodowych i konieczność zarządzania nimi.

Próbą rozwiązania problemu stron kodowych było wprowadzenie zestawu znaków Unicode, obejmującego ponad milion znaków wszystkich alfabetów świata, nawet takich jak hieroglify. Unicode jest jednak tylko zestawem samych znaków, więc aby go zastosować, korzysta się z systemów ich kodowania, do których należą m.in. UTF-8, UTF-16 i UTF-32

Zobacz też[ | edytuj kod]

  • kodowanie polskich znaków diakrytycznych w różnych standardach – tabela




  • Reklama