UTF-8

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

UTF-8 (ang. 8-bit Unicode Transformation Format) – system kodowania Unicode, wykorzystujący od 1 do 4 bajtów do zakodowania pojedynczego znaku, w pełni kompatybilny z ASCII. Jest najczęściej wykorzystywany do przechowywania napisów w plikach i komunikacji sieciowej.

XHTML (ang. Extensible HyperText Markup Language, rozszerzalny język znaczników hipertekstowych) – język służący do tworzenia stron WWW ogólnego przeznaczenia. Specyfikacje XHTML przygotowuje organizacja W3C.Internet Engineering Task Force to nieformalne, międzynarodowe stowarzyszenie osób zainteresowanych ustanawianiem standardów technicznych i organizacyjnych w Internecie.

Zalety i wady[ | edytuj kod]

Zalety[ | edytuj kod]

  • Każdy tekst w ASCII jest tekstem w UTF-8.
  • Żaden znak spoza ASCII nie zawiera bajtu z ASCII.
  • Zachowuje porządek sortowania UCS-4.
  • Typowy tekst ISO-Latin-X rozrasta się w bardzo niewielkim stopniu po przekonwertowaniu do UTF-8.
  • Nie zawiera bajtów 0xFF i 0xFE, więc łatwo można go odróżnić od tekstu UTF-16.
  • Znaki o kodzie różnym od 0 nie zawierają bajtu 0, co pozwala stosować UTF-8 w ciągach zakończonych zerem.
  • O każdym bajcie wiadomo, czy jest początkiem znaku, czy też leży w jego środku, co nie jest dostępne np. w kodowaniu EUC.
  • Nie ma problemów z little endian vs big endian.
  • Jest domyślnym kodowaniem w XML (również w jego aplikacjach: XHTML, SVG, XSL, CML, MathML).
  • Wady[ | edytuj kod]

  • Znaki CJK zajmują po 3 bajty zamiast 2 w kodowaniach narodowych.
  • Znaki alfabetów niełacińskich zajmują po 2 bajty zamiast jednego w kodowaniach narodowych.
  • UTF-8 nie używa przesunięć zasięgów, co stanowi dodatkowe utrudnienie dla implementacji UTF-8 (szczegóły poniżej)
  • Systemy pisma CJK – używane w informatyce określenie systemów pisma wywodzących się z pisma chińskiego (języki chińskie – tradycyjne i uproszczone pismo chińskie, japoński – pismo japońskie) oraz pisma koreańskiego.RFC (ang. Request for Comments – dosłownie: prośba o komentarze) – zbiór technicznych oraz organizacyjnych dokumentów mających formę memorandum związanych z Internetem oraz sieciami komputerowymi. Każdy z nich ma przypisany unikatowy numer identyfikacyjny, zwykle używany przy wszelkich odniesieniach. Publikacją RFC zajmuje się Internet Engineering Task Force.


    Podstrony: 1 [2] [3]




    Warto wiedzieć że... beta

    Chemical Markup Language, CML - format zapisu różnorodnych informacji o związkach chemicznych i ich reakcjach, formalnie jeden z języków znaczników zdefiniowanych za pomocą składni XML. Inicjatorami tego formatu są Peter Murray-Rust i Henry Rzepa. Obecnie rozwój tego języka jest prowadzony jako jeden z projektów Sourceforge.
    SVG (ang. Scalable Vector Graphics) – uniwersalny format dwuwymiarowej grafiki wektorowej (statycznej i animowanej), nieobwarowany licencjami i patentami.
    UTF-7 (ang. 7-bit Unicode Transformation Format) – sposób zapisu tekstu w formacie Unicode przy użyciu zmiennej liczby znaków ASCII, nadający się na przykład do użycia w wiadomościach MIME.
    Znaki diakrytyczne (gr. diakritikós – odróżniający) – znaki graficzne używane w alfabetach i innych systemach pisma, umieszczane nad, pod literą, obok lub wewnątrz niej, zmieniające artykulację tej litery i tworzące przez to nową literę. W alfabetach sylabowych mogą zmienić znaczenie całej sylaby.
    XSL (ang. Extensible Stylesheet Language, w wolnym tłumaczeniu Rozszerzalny Język Arkuszy Stylów) – funkcyjny język programowania opisujący sposób prezentacji i przekształceń dokumentów zapisanych w formacie XML. W języku tym operuje się na znacznikach i ich ewaluacji, na podobnej zasadzie, co we wszystkich językach operujących na makrach.
    UTF-16 (ang. 16-bit Unicode Transformation Format) – w informatyce jeden ze sposobów kodowania znaków standardu unicode. Sposób ten wymaga użycia szesnastobitowych słów (ang. word), przy czym dla znaków na pozycjach poniżej 65536 (przedział 0000-FFFF) używane jest jedno słowo, którego wartość odpowiada pozycji znaku w standardzie. Dla znaków z wyższych pozycji używa się dwóch słów. Pierwsze z nich należy do przedziału D800–DBFF, drugie: DC00-DFFF. Na przykład znak o kodzie szesnastkowym 10000 zostanie zamieniony na sekwencję D800 DC00 a znak o kodzie 10FFFD (górna granica unikodu) na DBFF DFFD. W standardzie Unicode pozycjom z przedziału D800–DFFF nie są przypisane żadne znaki, zatem każda sekwencja słów kodowych jest interpretowana jednoznacznie.
    ASCII [aski] (ang. American Standard Code for Information Interchange) – 7-bitowy kod przyporządkowujący liczby z zakresu 0-127: literom (alfabetu angielskiego), cyfrom, znakom przestankowym i innym symbolom oraz poleceniom sterującym. Na przykład litera "a" jest kodowana liczbą 97, a znak spacji jest kodowany liczbą 32.

    Reklama