Statystyka nieparametryczna

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Statystyka nieparametryczna – gałąź statystyki, zajmująca się modelami i metodami, niewymagającymi założeń odnośnie do rozkładu populacji z której losowana jest próba.

Rozkład prawdopodobieństwa – w najczęstszej interpretacji (rozkład zmiennej losowej) miara probabilistyczna określona na sigma-ciele podzbiorów zbioru wartości zmiennej losowej (wektora losowego), pozwalająca przypisywać prawdopodobieństwa zbiorom wartości tej zmiennej, odpowiadającym zdarzeniom losowym. Formalnie rozkład prawdopodobieństwa może być jednak rozpatrywany także bez stosowania zmiennych losowych.Test Andersona-Darlinga – jeden z testów statystycznych zgodności rozkładu z zadanym rozkładem wzorcowym. Zwykle stosuje się go do sprawdzenia zgodności z rozkładem normalnym. Jest modyfikacją testu Craméra-von Misesa dokonaną w celu poprawy jego czułości w "ogonach" testowanego rozkładu.

Przymiotnik "nieparametryczna" podkreśla, że w odróżnieniu od wielu klasycznych metod statystycznych algorytmy te nie polegają na estymacji żadnych parametrów z góry założonego rozkładu zmiennej losowej w populacji.

Metody nieparametryczne należą do tzw. odpornych metod statystycznych (ang. robust methods), gdyż są mało wrażliwe na obserwacje odstające. Najpopularniejszą grupą metod nieparametrycznych są rangowe metody statystyczne.

Termin statystyka nieparametryczna może także odnosić się do statystyki - funkcji próby, której interpretacja nie jest związana z dopasowywaniem parametrów jakiegokolwiek rozkładu. Typowym przykładem są miary oparte na rangach.

Test statystyczny - formuła matematyczna pozwalająca oszacować prawdopodobieństwo spełnienia pewnej hipotezy statystycznej w populacji na podstawie próby losowej z tej populacji.Model statystyczny – hipoteza lub układ hipotez, sformułowanych w sposób matematyczny (odpowiednio w postaci równania lub układu równań), który przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami rzeczywistymi.

Cel i zastosowania[ | edytuj kod]

Metody nieparametryczne są szeroko używane przy badaniu zmiennych na skali porządkowej (jak punktowa ocena filmu od 1 do 6 gwiazdek), lub kolejność preferencji klienta.

Tau Kendalla – statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych. Służy w praktyce do opisu korelacji między zmiennymi porządkowymi.Korelacja rangowa – dowolna statystyka pozwalająca na określenie zależności zmiennych losowych w sposób niezmienniczy ze względu na operację rangowania.

Kolejnym polem zastosowania metod nieparametrycznych są dane w których występują obserwacje odstające. Metody parametryczne dają wówczas błędne wyniki, gdyż ich założenia nie są spełnione - obserwacje odstające są z definicji przykładem odstępstwa od założonego rozkładu. Metody nieparametryczne, ze względu na mniejszą liczbę założeń, są mniej wrażliwe na takie błędy.

Współczynnik gamma (γ) (gamma Goodmana i Kruskala) – jedna z miar zależności pomiędzy dwiema zmiennymi porządkowymi. Twórcami współczynnika gamma są statystycy Leo Goodman i William Kruskal. Szczególnym przypadkiem współczynnika gamma jest współczynnik kontyngencji Q-Yulea. Statystyka (niem. Statistik, „badanie faktów i osób publicznych”, z łac. [now.] statisticus, „polityczny, dot. polityki”, od status, „państwo, stan”) – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe.

Kolejnym argumentem za użyciem metod nieparametrycznych jest ich prostota. W pewnych przypadkach, nawet jeśli użycie metod parametrycznych jest uzasadnione, metody nieparametryczne prościej zastosować.

Metody parametryczne mają generalnie większą liczbę założeń, szczególnie względem rozkładu populacji. Założenia te nigdy nie są całkowicie spełnione. Kwestia, czy obserwowane odstępstwa od założeń są dostatecznie małe, by daną metodę parametryczną można było zastosować, jest w dużej mierze decyzją statystyka. Metody nieparametryczne wymagają mniej tego rodzaju decyzji i dzięki temu dają mniej okazji do pomyłek lub niejednoznaczności analizy.

Korelacja rang Spearmana (lub: korelacja rangowa Spearmana, rho Spearmana) – w statystyce jedna z nieparametrycznych miar monotonicznej zależności statystycznej między zmiennymi losowymi.Skala porządkowa – jeden z rodzajów skal pomiarowych. Zmienne są na skali porządkowej, gdy przyjmują wartości, dla których dane jest uporządkowanie (kolejność), jednak nie da się w sensowny sposób określić różnicy ani ilorazu między dwiema wartościami.

W przypadku jednak, gdy rozkład faktycznie jest bardzo zbliżony do założonego, metody parametryczne dają lepsze rezultaty od nieparametrycznych - generują mniejszy błąd i bardziej istotne statystycznie wyniki, a testy mają większą moc.

Podstrony: 1 [2] [3] [4]




Warto wiedzieć że... beta

Test Kołmogorowa-Smirnowa – test nieparametryczny używany do porównywania rozkładów jednowymiarowych cech statystycznych. Istnieją dwie główne wersje tego testu – dla jednej próby i dla dwóch prób.
Moc testu (pojęcie statystyczne) to prawdopodobieństwo niepopełnienia błędu drugiego rodzaju. Im większe jest to prawdopodobieństwo, tym lepszy jest dany test jako narzędzie do różnicowania między hipotezą prawdziwą i fałszywą.
Populacja statystyczna (inaczej populacja generalna, zbiorowość generalna) – zbiór elementów, podlegających badaniu statystycznemu.
Gradacyjna analiza danych (ang. Grade Data Analysis, Grade Correspondence Analysis) - dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.
Test Wilcoxona dla par obserwacji jest nieparametryczną alternatywą dla testu t-Studenta dla przypadku dwóch równolicznych próbek dających się połączyć w pary. Często używa się tego testu do porównywania danych zebranych przed i po eksperymencie, w celu zbadania, czy nastąpiła istotna statystycznie zmiana.
Statystyka odpornościowa lub odporne metody statystyczne (ang. robust statistics) – gałąź statystyki, obejmująca metody projektowane pod kątem odporności na niewielkie odejście od założeń modelu (szczególnie występowanie obserwacji odstających) lub rezygnacji z niektórych założeń.
Test Newmana-Keulsa, test Studenta-Newmana-Keulsa (ang. Newman-Keuls test) – wykorzystywany w statystyce test post hoc. Służy on porównywaniu wszystkich możliwych par średnich. Test ten jest uważany za mniej konserwatywny od testu HSD Tukeya.

Reklama