Normalizacja tekstu

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania. Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.

Analizator składniowy lub parser – program dokonujący analizy składniowej danych wejściowych w celu określenia ich struktury gramatycznej w związku z określoną gramatyką formalną. Nazwa analizator składniowy podkreśla analogię z analizą składniową stosowaną w gramatyce i językoznawstwie. Analizator składniowy umożliwia przetworzenie tekstu czytelnego dla człowieka w strukturę danych przydatną dla oprogramowania komputera.Litera – znak graficzny charakterystyczny dla pism fonetycznych. Może wyrażać pojedynczą głoskę, sylabę lub wchodzić w skład innych połączeń - np. dwuznaków. W języku francuskim zestaw nawet pięciu liter może oznaczać jedną głoskę.

Rodzaje normalizacji[ | edytuj kod]

  • zmiana wielkości liter (na małe lub wielkie),
  • normalizacja skrótów,
  • normalizacja wyrażeń numerycznych,
  • normalizacja znaków specjalnych,
  • zmiana znaków interpunkcyjnych,
  • usuwanie (lub zmienianie) znaków diakrytycznych.
  • Interpunkcja – graficzny odpowiednik intonacji, rytmu i tempa mowy, akcentu wyrazowego i zdaniowego. Stanowi ją zbiór znaków (we współczesnej polszczyźnie jest ich 10), inaczej zwanych znakami przestankowymi, uzupełniających zapis literowy tekstu. Nie odpowiadają one ani fonemom języka mówionego, ani leksemom. Znaki te pozwalają na odzwierciedlenie w tekście pisanym zależności składniowych między członami wypowiedzenia lub między wypowiedzeniami, na wyodrębnienie, podkreślenie – ze względów znaczeniowych lub emocjonalnych – pewnych wyrazów lub fragmentów tekstu, a także na ujednoznacznienie tekstu pisanego.Znaki diakrytyczne (gr. diakritikós – odróżniający) – znaki graficzne używane w alfabetach i innych systemach pisma, umieszczane nad, pod literą, obok lub wewnątrz niej, zmieniające artykulację tej litery i tworzące przez to nową literę. W alfabetach sylabowych mogą zmienić znaczenie całej sylaby.


    Podstrony: 1 [2] [3]




    Warto wiedzieć że... beta

    Baza danych – zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego specjalizowanego do gromadzenia i przetwarzania tych danych. Program taki (często pakiet programów) nazywany jest „systemem zarządzania bazą danych” (ang. database management system, DBMS).
    Tłumaczenie automatyczne albo tłumaczenie maszynowe (ang. Machine Translation) jest dziedziną językoznawstwa komputerowego, które zajmuje się stosowaniem algorytmów tłumaczenia tekstu z jednego języka (naturalnego) na drugi.
    Korpus - zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.
    Optymalizacja - metoda wyznaczania najlepszego (optymalnego) rozwiązania (poszukiwanie ekstremum funkcji) z punktu widzenia określonego kryterium (wskaźnika) jakości (np. kosztu, drogi, wydajności).

    Reklama