Weryfikacja hipotez statystycznych

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Weryfikacja hipotez statystycznych – sprawdzanie sądów o populacji przez badanie jej wycinka (próby statystycznej). Wyróżnia się kilka podejść do problemu weryfikacji hipotez, między innymi:

Test statystyczny - formuła matematyczna pozwalająca oszacować prawdopodobieństwo spełnienia pewnej hipotezy statystycznej w populacji na podstawie próby losowej z tej populacji.Statystyka (niem. Statistik, „badanie faktów i osób publicznych”, z łac. [now.] statisticus, „polityczny, dot. polityki”, od status, „państwo, stan”) – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe.
  • wnioskowanie częstościowe, z użyciem P-wartości – służące kontroli błędów decyzyjnych (w szczególności: błędu I i błędu II rodzaju), tak aby w długim horyzoncie czasowym spodziewać się, że nie popełnimy ich częściej, niż założyliśmy (według przyjętego poziomu istotności, np. w 5% przypadków),
  • iloraz wiarygodności – służące do rozstrzygnięcia, w jakiej proporcji dane świadczą na rzecz dwóch porównywanych hipotez,
  • wnioskowanie bayesowskie, z użyciem czynnika Bayesa – służące do wyrażenia subiektywnej pewności, jaką można, na podstawie danych i wcześniejszych oczekiwań, przypisać danej hipotezie.
  • Ze względów historycznych w naukach empirycznych najczęściej spotyka się obecnie metody częstościowe. Wiążą się one z szeregiem specyficznych problemów interpretacyjnych, jednak każde z podejść charakteryzują swoiste problemy i ryzyko niezrozumienia oraz nadużyć.

    Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo, że zjawisko jakie zaobserwowano w jakimś pomiarze na losowej próbie statystycznej z populacji, mogło wystąpić przypadkowo, wskutek losowej zmienności prób, w sytuacji w której w populacji takie zjawisko wcale nie występuje. Jest definiowane ściśle jako prawdopodobieństwo kumulatywne wylosowania próby takiej, lub bardziej skrajnej, jak zaobserwowana, przy założeniu że hipoteza zerowa jest spełniona. Wartość p jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych, jako narzędzie kontroli błędów pierwszego rodzaju – polegających na pochopnym uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość p jest niższa niż przyjęty z góry poziom istotności statystycznej, można postępować tak jakby hipoteza zerowa została odrzucona. Błąd pierwszego rodzaju (błąd pierwszego typu, alfa-błąd, false positive) − w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych − błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa. Oszacowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju oznaczamy symbolem α (mała grecka litera alfa) i nazywamy poziomem istotności testu.

    Podejście częstościowe[ | edytuj kod]

    Definicje[ | edytuj kod]

    Niech

    Wnioskowanie częstościowe (ang. frequentist inference), NHST, (ang. null hypothesis significance testing), statystyka częstościowa – podejście w dziedzinie wnioskowania statystycznego oparte na falsyfikacji hipotez statystycznych w oparciu o ich oczekiwane długoterminowe właściwości. Jest ono amalgamatem metod wypracowanych przez Ronalda Fishera oraz Neymana i Pearsona. Jego główną właściwością jest to, że w długim horyzoncie czasowym, badacz posługujący się prawidłowo metodami częstościowymi nie popełni błędów decyzyjnych statystycznie częściej, niż założył. Charakterystycznym dla statystyki częstościowej narzędziem jest P-wartość testu. Głównymi alternatywnymi podejściami jest wnioskowanie bayesowskie i stosowanie ilorazów wiarygodności.Populacja statystyczna (inaczej populacja generalna, zbiorowość generalna) – zbiór elementów, podlegających badaniu statystycznemu.

    będzie rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby indeksowaną parametrem (w szczególności może to być wektor parametrów rzeczywistych). opisuje wielowymiarowy łączny rozkład wszystkich obserwacji w próbie

    Technologia – metoda przygotowania i prowadzenia procesu wytworzenia lub przetwarzania jakiegoś dobra (także informacji). Technologia może oznaczać konkretny proces (np. technologia klejenia, technologia malowania).Replikacja to pojęcie z zakresu metodologii nauk oraz statystyki opisujące powtarzanie badań w celu zweryfikowania ich wyników jako część ustawicznego procesu autokorekcyjnego w metodzie naukowej. Słowami filozofa nauki Karla Poppera „niepowtarzalne, jednostkowe wydarzenia nie mają dla nauki żadnego znaczenia”. Statystyk Ronald Fisher dodaje: „możemy uznać, że zjawisko jest udowodnione eksperymentalnie wówczas, gdy wiemy, jak przeprowadzić eksperyment, który rzadko zawiedzie w wykazaniu istotnych statystycznie rezultatów.”

    Hipotezą statystyczną jest zdanie postaci gdzie koduje własność rozkładu, którą chcemy testować.

    Błąd drugiego rodzaju (błąd drugiego typu, błąd przyjęcia, beta-błąd, false negative) − w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych polegające na nieodrzuceniu hipotezy zerowej, która jest w rzeczywistości fałszywa.Wielkość efektu – ilościowa miara siły zjawiska (np. różnica między grupą kontrolną a grupą eksperymentalną) obliczana na podstawie danych.

    Problem weryfikacji hipotezy statystycznej polega na takim podziale przestrzeni próby na rozłączne zbiory i żeby prawdopodobieństwo warunkowe hipotezy było możliwie małe (w pewnym ustalonym sensie) dla i możliwie duże dla

    Zdanie w sensie logiki (zdanie logiczne) – wypowiedź, która stwierdza określony stan rzeczy. Zdanie z języka J stwierdza (na mocy reguł semantycznych J) stan rzeczy s zawsze i tylko wtedy, gdy na mocy reguł semantycznych języka J: zdanie z jest prawdziwe zawsze i tylko wtedy, gdy s a z jest fałszywe zawsze i tylko wtedy, gdy nie jest tak, że s.Poziom istotności – jest to maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem α). Określa tym samym maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować. Wybór wartości α zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się α = 0,05; rzadziej 0,1, 0,03, 0,01 lub 0,001. Wartość założonego poziomu istotności jest porównywana z wyliczoną z testu statystycznego p-wartością (czasem porównuje się od razu wartości statystyki testowej z wartością odpowiadającą danemu poziomowi istotności). Jeśli p-wartość jest większa, oznacza to, iż nie ma powodu do odrzucenia tzw. hipotezy zerowej H0, która zwykle stwierdza, że obserwowany efekt jest dziełem przypadku.

    Zwykle wybiera się pewną statystykę i buduje zbiór

    gdzie:

    Czynnik Bayesa (BF, ang. Bayes factor) to stosunek prawdopodobieństwa uzyskania danych obserwacji w dwóch porównywanych modelach. Pozwala on na porównanie, w jakim stopniu dane świadczą na rzecz dwóch alternatywnych hipotez, i jest jedną z metod weryfikowania hipotez statystycznych we wnioskowaniu bayesowskim.Wielka Encyklopedia Rosyjska (ros. Большая российская энциклопедия, БРЭ) – jedna z największych encyklopedii uniwersalnych w języku rosyjskim, wydana w 36 tomach w latach 2004–2017. Wydana przez spółkę wydawniczą o tej samej nazwie, pod auspicjami Rosyjskiej Akademii Nauk, na mocy dekretu prezydenckiego Władimira Putina nr 1156 z 2002 roku
    jest tzw. obszarem krytycznym testu, wybranym tak, aby jest wybranym prawdopodobieństwem, tzw. poziomem istotności testu, zwykle 0,05 lub 0,01.

    Jednostronny obszar krytyczny to obszar postaci gdzie

    Wnioskowanie bayesowskie (statystyka bayesowska) – metoda wnioskowania statystycznego, w której korzysta się z twierdzenia Bayesa do aktualizowania prawdopodobieństwa subiektywnego hipotez w oparciu o dotychczasowe prawdopodobieństwo oraz nowe dane. Wnioskowanie bayesowskie znajduje zastosowanie w wielu dziedzinach, takich jak badania naukowe, inżynieria, filozofia, medycyna, sport czy prawo.Intersubiektywna kontrolowalność - jest to cecha pojęć naukowych, ściśle związana z racjonalizmem. Według niej pojęcia naukowe posiadają następujące cechy:
    jest tzw. wartością krytyczną testu. Jest to największa liczba, dla której

    Dwustronny obszar krytyczny to obszar postaci gdzie

    DOI (ang. digital object identifier – cyfrowy identyfikator dokumentu elektronicznego) – identyfikator dokumentu elektronicznego, który w odróżnieniu od identyfikatorów URL nie zależy od fizycznej lokalizacji dokumentu, lecz jest do niego na stałe przypisany.International Standard Serial Number, ISSN czyli Międzynarodowy Znormalizowany Numer Wydawnictwa Ciągłego – ośmiocyfrowy niepowtarzalny identyfikator wydawnictw ciągłych tradycyjnych oraz elektronicznych. Jest on oparty na podobnej koncepcji jak identyfikator ISBN dla książek, ISAN dla materiałów audio-wideo. Niektóre publikacje wydawane w seriach mają przyporządkowany zarówno numer ISSN, jak i ISBN.
    jest największą liczbą dla której jest najmniejszą liczbą dla której

    Standardowy przebieg procedury weryfikacyjnej[ | edytuj kod]

    Sformułowanie | edytuj kod]

    Hipoteza zerowa – jest to hipoteza poddana procedurze weryfikacyjnej, w której zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero. Przykładowo wnioskując o parametrach hipotezę zerową zapiszemy jako:

    Hipoteza statystyczna to dowolne przypuszczenie dotyczące rozkładu populacji - postaci funkcyjnej lub wartości parametru rozkładu. Proces sprawdzenia prawdziwości tego przypuszczenia na podstawie wyników próby losowej to weryfikacja hipotez statystycznych.

    Hipoteza alternatywna – hipoteza przeciwstawna do weryfikowanej. Możemy ją zapisać na trzy sposoby w zależności od sformułowania badanego problemu:

    Wybór statystyki testowej[ | edytuj kod]

    Budujemy pewną statystykę W, która jest funkcją wyników z próby losowej i wyznaczamy jej rozkład przy założeniu, że hipoteza zerowa jest prawdziwa. Funkcję W nazywa się statystyką testową lub funkcją testową.

    Określenie poziomu istotności [ | edytuj kod]

    Na tym etapie procedury weryfikacyjnej przyjmujemy maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju, który polega na odrzuceniu hipotezy zerowej wtedy, gdy jest ona prawdziwa. Prawdopodobieństwo to jest oznaczane symbolem i nazywane poziomem istotności. Na ogół przyjmujemy prawdopodobieństwo bliskie zeru, ponieważ chcemy, aby ryzyko popełnienia błędu było jak najmniejsze. Najczęściej zakładamy poziom istotności czasem przyjmuje się np.

    Wyznaczenie obszaru krytycznego testu[ | edytuj kod]

    Obszar krytyczny – obszar znajdujący się zawsze na krańcach rozkładu. Jeżeli obliczona przez nas wartość statystyki testowej znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę odrzucamy. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności natomiast jego położenie określane jest przez hipotezę alternatywną.

    Obszar krytyczny od pozostałej części rozkładu statystyki oddzielony jest przez tzw. wartości krytyczne testu , czyli wartości odczytane z rozkładu statystyki przy danym tak aby spełniona była relacja zależna od sposobu sformułowania

    Obliczenie statystyki na podstawie próby[ | edytuj kod]

    Wyniki próby opracowujemy w odpowiedni sposób, zgodnie z procedurą wybranego testu i są one podstawą do obliczenia statystyki testowej. Większość statystyk testowych, mających dokładny rozkład normalny, -Studenta lub graniczny rozkład normalny, obliczamy w następujący sposób:

    gdzie: – Statystyka testowa, – Statystyka obliczona z próby, – Hipotetyczna wartość parametru(ów), – Odchylenie standardowe rozkładu statystyki.

    Podjęcie decyzji[ | edytuj kod]

    Wyznaczoną na podstawie próby wartość statystyki (P-wartość) porównujemy z wartością krytyczną testu.

  • Jeżeli wartość ta znajdzie się w obszarze krytycznym, to hipotezę zerową należy odrzucić jako nieprawdziwą. Stąd wniosek, że prawdziwa jest hipoteza alternatywna.
  • Jeżeli natomiast wartość ta znajdzie się poza obszarem krytycznym, oznacza to, że brak jest podstaw do odrzucenia hipotezy zerowej. Stąd wniosek, że hipoteza zerowa może, ale nie musi, być prawdziwa, a postępowanie nie dało żadnych dodatkowych informacji uprawniających do podjęcia decyzji o przyjęciu lub odrzuceniu hipotezy zerowej.
  • Reguły postępowania przy weryfikacji hipotez są określane mianem testów statystycznych.

    Interpretacja wyniku istotnego lub nieistotnego statystycznie[ | edytuj kod]

    Zgodnie ze stanowiskiem Amerykańskiego Towarzystwa Statystycznego z 2016 r. P-wartość badania sama w sobie nie niesie informacji o prawdziwości hipotezy badawczej, wartości dowodowej danych czy znaczenia oraz wielkości efektu i nie powinna być traktowana jako samodzielne kryterium poznawcze. Statystycy rekomendują, aby w interpretacji wyników badań uwzględniać ich kontekst i transparentność. Wynik pojedynczego badania ani nawet grupy badań nie uprawniają same przez siebie do uznania żadnej hipotezy, stanowią jedynie słabsze lub mocniejsze ku temu dowody. Dopiero badanie, które jest intersubiektywnie i systematycznie powtarzalne, daje prawo do silniejszych wniosków.

    Podstrony: 1 [2] [3] [4]




    Reklama