• Artykuły
 • Forum
 • Ciekawostki
 • Encyklopedia
 • Korpus - językoznawstwo

  Przeczytaj także...
  Uczenie maszynowe albo uczenie się maszyn, systemy uczące się (ang. machine learning) – stosunkowo młoda i szybko rozwijająca się dziedzina wchodząca w skład nauk zajmujących się problematyką SI (patrz sztuczna inteligencja).Tekst równoległy (dwu- bądź wielojęzyczny) to tekst składający się z zestawionych obok siebie tekstów w co najmniej dwóch językach. Najczęściej jeden z tekstów jest oryginałem, a pozostałe jego tłumaczeniami, choć niekiedy nie da się już określić, który tekst był opracowany jako pierwotny, gdyż wszystkie były opracowywane równolegle i wzajemnie do siebie dostosowywane.
  Leksykografia (gr. leksikón - słownik + gráphõ - piszę) – nauka zajmująca się metodami tworzenia słowników i encyklopedii oraz opracowywaniem haseł i sposobem ich objaśniania.

  Korpus (ang. corpus, z łac. corpus 'ciało') – zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy.

  Korpusy językowe znalazły szerokie zastosowanie we współczesnej leksykografii. Są też wykorzystywane jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.

  Niektóre korpusy bywają określane mianem zrównoważonych - oznacza to, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Przykładem korpusu zrównoważonego może być korpus Słownika frekwencyjnego polszczyzny współczesnej (obecnie znany także jako korpus polszczyzny lat sześćdziesiątych XX wieku), składający się w równych częściach (po 10000 próbek) z tekstów popularnonaukowych, drobnych wiadomości prasowych, publicystyki, prozy artystycznej i dramatu artystycznego.

  Dramat (z gr. δρᾶμα – dráma czyli działanie, akcja) – jeden z trzech rodzajów literackich (obok liryki i epiki). Jest to właściwie rodzaj sztuki na granicy teatru i literatury.Językoznawstwo (lingwistyka) – dział nauk humanistycznych badających istotę, budowę i rozwój języka. Specjalista w zakresie językoznawstwa to językoznawca lub lingwista. Wyróżnia się lingwistykę teoretyczną i stosowaną.

  Przez korpus równoległy rozumiemy taki zbiór tekstów, w którym każdy tekst ma swój odpowiednik w co najmniej jednym innym języku. Teksty w takim korpusie mogą być zestawione (ang. aligned), np. na poziomie akapitu lub zdania.

  Linki zewnętrzne[]

 • korpusy.net - Strona poświęcona korpusom językowym
 • Narodowy Korpus Języka Polskiego
 • Korpus Języka Polskiego IPI PAN
 • BNC - Brytyjski Korpus Narodowy
 • Korpus mowy AGH
 • Audiowizualny korpus mowy AGH
 • Korpus emocji w mowie AGH • w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

  Warto wiedzieć że... beta

  Wyraz – pewna wyróżniona fonetycznie, czy też graficznie, część wypowiedzi, składająca się z jednego lub więcej morfemów.
  Zbiór – pojęcie pierwotne teorii zbiorów (znanej szerzej jako teoria mnogości; za jej twórcę uważa się Georga Cantora) leżące u podstaw całej matematyki; intuicyjnie jest to nieuporządkowany zestaw różnych obiektów, czy też kolekcja niepowtarzających się komponentów bez wyróżnionej kolejności.
  Syntaktyka, składnia (gr. syntaktikós porządkujący) – dział językoznawstwa, który zajmuje się budową wypowiedzeń.
  Publicystyka (łac.) – Subiektywne gatunki wypowiedzi w środkach komunikacji społecznej (prasa, radio, telewizja, Internet, książka, wydawnictwa jednorazowe) na publicznie interesujące w danym momencie tematy. Typowe rodzaje publicystyki:
  Łacina, język łaciński (łac. lingua Latina, Latinus sermo) – język indoeuropejski z podgrupy latynofaliskiej języków italskich, wywodzący się z Lacjum (łac. Latium), krainy w starożytnej Italii, na północnym skraju której znajduje się Rzym.

  Reklama