Estymator

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Estymatorstatystyka służąca do szacowania wartości parametru rozkładu.

Przedział ufności jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polsko-amerykańskiego matematyka Jerzego Spławę-Neymana.Metoda najmniejszych kwadratów – standardowa metoda przybliżania rozwiązań układów nadokreślonych, tzn. zestawu równań, w którym jest ich więcej niż zmiennych. Nazwa „najmniejsze kwadraty” oznacza, że końcowe rozwiązanie tą metodą minimalizuje sumę kwadratów błędów przy rozwiązywaniu każdego z równań.

Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji.

Przykładowo badamy rozkład wzrostu ludności w Polsce. Zakładamy, że rozkład tej cechy w populacji jest rozkładem normalnym, zaś szukaną wielkością jest wartość oczekiwana Wartość jest zatem szukanym parametrem rozkładu cechy W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności Następnym krokiem będzie znalezienie wygodnej statystyki z próby, która posłuży do oszacowania parametru Rolę takiej statystyki może spełniać wartość średnia z próby. Mówimy zatem, że wartość średnia z próby jest estymatorem wartości oczekiwanej rozkładu normalnego. Obliczoną przez nas na podstawie konkretnej próby wartość średnią nazywamy oceną parametru.

Rozkład prawdopodobieństwa – w najczęstszej interpretacji (rozkład zmiennej losowej) miara probabilistyczna określona na sigma-ciele podzbiorów zbioru wartości zmiennej losowej (wektora losowego), pozwalająca przypisywać prawdopodobieństwa zbiorom wartości tej zmiennej, odpowiadającym zdarzeniom losowym. Formalnie rozkład prawdopodobieństwa może być jednak rozpatrywany także bez stosowania zmiennych losowych.Rozkład na czynniki lub faktoryzacja – proces, w którym dla danego obiektu znajdują się obiekty, takie że ich iloczyn jest jemu równy, przez co są one w pewnym sensie od niego prostsze.

Definicja[ | edytuj kod]

Niech

Odchylenie standardowe – klasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne.Tau Kendalla – statystyka będąca jedną z miar monotonicznej zależności dwóch zmiennych losowych. Służy w praktyce do opisu korelacji między zmiennymi porządkowymi.

będzie rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby indeksowaną parametrem (w szczególności może to być wektor parametrów rzeczywistych). opisuje wielowymiarowy łączny rozkład wszystkich obserwacji w próbie

Estymacja punktowa – grupa metod statystycznych, służąca do punktowego oszacowania wartości szukanego parametru rozkładu. Punktowe oszacowanie oznacza tutaj, że uzyskujemy konkretną wartość liczbową, nie zaś przedział liczbowy, jak dzieje się to w przypadku estymacji przedziałowej.Korelacja rang Spearmana (lub: korelacja rangowa Spearmana, rho Spearmana) – w statystyce jedna z nieparametrycznych miar monotonicznej zależności statystycznej między zmiennymi losowymi.

Zagadnienie estymacji punktowej polega na takim skonstruowaniu pewnej statystyki zwanej estymatorem, aby wartości były bliskie (w jakimś ustalonym sensie) wartości W szczególności, jeśli estymowany jest tylko jeden z parametrów rozkładu (czyli jedna ze współrzędnych wektora ), to odległość między i liczona jest tylko dla tej współrzędnej.

Statystyka nieparametryczna – gałąź statystyki, zajmująca się modelami i metodami, nie wymagającymi założeń odnośnie do rozkładu populacji z której losowana jest próba.Zbieżność ciągu funkcji według (pewnej) miary to rodzaj zbieżności ciągów funkcyjnych rozważany w teorii miary i analizie matematycznej. Pojęcie pojawiło się w sferze zainteresowań matematyków z początkiem XX wieku. W teorii prawdopodobieństwa i statystyce ten rodzaj zbieżności nazywany jest zbieżnością według prawdopodobieństwa lub zbieżnością stochastyczną.

Ponieważ każda ze zmiennych losowych ma rozkład identyczny z rozkładem cechy w populacji generalnej, a rozkład ten zależy od parametru estymatory są zmiennymi losowymi, mającymi rozkład również zależny od parametru

Wariancja to w statystyce klasyczna miara zmienności. Intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości; jest średnią arytmetyczną kwadratów odchyleń (różnic) poszczególnych wartości cechy od wartości oczekiwanej.Współczynnik korelacji liniowej Pearsona – współczynnik określający poziom zależności liniowej między zmiennymi losowymi. Został opracowany przez Karla Pearsona

Estymacja przedziałowa w jednowymiarowym przypadku polega na skonstruowaniu dwóch statystyk i takich, że zachodzi:

Gradacyjna analiza danych (ang. Grade Data Analysis, Grade Correspondence Analysis) - dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk.Statystyka odpornościowa lub odporne metody statystyczne (ang. robust statistics) – gałąź statystyki, obejmująca metody projektowane pod kątem odporności na niewielkie odejście od założeń modelu (szczególnie występowanie obserwacji odstających) lub rezygnacji z niektórych założeń.

gdzie jest ustalonym prawdopodobieństwem (tzw. poziom ufności). Przedział to przedział ufności na poziomie

Twierdzenie Rao-Craméra (zwane również nierównością Rao-Craméra lub nierównościa informacyjną) podaje jaki jest minimalny możliwy średniokwadratowy błąd estymatora (nie ma estymatorów, które miałyby mniejszy średni błąd kwadratowy).Twierdzenie Bayesa (od nazwiska Thomasa Bayesa) to twierdzenie teorii prawdopodobieństwa, wiążące prawdopodobieństwa warunkowe zdarzeń A | B {displaystyle A|B;} oraz B | A {displaystyle B|A;} . Na przykład jeśli A {displaystyle A;} jest zdarzeniem „u pacjenta występuje wysoka gorączka”, a B {displaystyle B;} jest zdarzeniem „pacjent ma grypę”, twierdzenie Bayesa pozwala przeliczyć znany odsetek gorączkujących wśród chorych na grypę P ( A | B ) {displaystyle P(A|B);} i znane odsetki gorączkujących P ( A ) {displaystyle P(A);} i chorych na grypę P ( B ) {displaystyle P(B);} w całej populacji, na prawdopodobieństwo, że ktoś jest chory na grypę, gdy wiemy, że ma wysoką gorączkę P ( B | A ) {displaystyle P(B|A);} . Twierdzenie stanowi podstawę teoretyczną sieci bayesowskich, stosowanych w eksploracji danych.

O estymacji z zadaną precyzją mówi się jeśli nałożone jest górne ograniczenie na wielkość

Metody rangowe – zbiór metod statystycznych w których próba jest na wstępie rangowana, tzn. każda wartość każdej cechy jest zastępowana jej pozycją (rangą) na uporządkowanej rosnąco liście wszystkich wartości tej cechy, lub przynajmniej niezmienniczych ze względu na operację rangowania danych wejściowych..Regresja liniowa – metoda estymowania wartości oczekiwanej zmiennej y {displaystyle y} przy znanych wartościach innej zmiennej lub zmiennych x {displaystyle x} . Szukana zmienna y {displaystyle y} jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne x {displaystyle x} nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.

Oceną parametru lub estymatą nazwiemy każdą realizację estymatora (zmiennej losowej ).

Ocena parametru będzie prawie zawsze różnić się od oryginalnej wartości parametru Wprowadza się zatem miarę błędu estymacji:

Bańka mydlana – zazwyczaj sferyczna błona z wody wypełniona powietrzem lub innym gazem. Powstaje z mieszaniny wody z mydłem lub detergentem (np. płynem do mycia naczyń), czasami z niewielkim dodatkiem gliceryny utrudniającym parowanie wody – przedłużającym żywotność bańki.Prawdopodobieństwo subiektywne to interpretacja prawdopodobieństwa, według której prawdopodobieństwo nie musi być wielkością obiektywną, lecz może być określone na podstawie subiektywnej opinii osoby, zależnie od dostępnych jej aktualnie danych.

Błąd szacunku

Podstrony: 1 [2] [3]




Warto wiedzieć że... beta

Ranga – w najprostszej wersji numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.
Definicja intuicyjna: W danym szeregu uporządkowanym liczba, która jest w połowie szeregu w wypadku nieparzystej liczby elementów. Dla parzystej liczby elementów – średnia arytmetyczna dwóch środkowych liczb.
Wartość oczekiwana (wartość średnia, przeciętna, dawniej nadzieja matematyczna) – w rachunku prawdopodobieństwa wartość określająca spodziewany wynik doświadczenia losowego. Wartość oczekiwana to inaczej pierwszy moment zwykły. Estymatorem wartości oczekiwanej rozkładu cechy w populacji jest średnia arytmetyczna.
Rozkład empiryczny to uzyskany na podstawie badania statystycznego opis wartości przyjmowanych przez cechę statystyczną w próbie przy pomocy częstości ich występowania.
Obserwacja odstająca, element odstający (ang. outlier) – obserwacja posiadająca nietypową wartość zmiennej niezależnej (objaśniającej) lub nietypowe wartości obydwu zmiennych – zależnej (objaśnianej) i objaśniającej (objaśniających w analizie regresji wielokrotnej). Oznacza to, że związek między Xi a Yi dla danej obserwacji jest inny niż dla reszty obserwacji w zbiorze danych.
Estymacja przedziałowa to grupa metod statystycznych służących do oszacowania parametrów rozkładu zmiennej losowej w populacji generalnej. Wynikiem oszacowania nie jest tutaj ocena punktowa, tak jak w przypadku metod estymacji punktowej. Można zauważyć, że w przypadku rozkładu ciągłego, prawdopodobieństwo, że ocena punktowa parametru przyjmie wartość równą wartości szacowanego parametru jest bliskie zeru. W metodach estymacji przedziałowej oceną parametru nie jest konkretna wartość, ale pewien przedział, do którego z określonym prawdopodobieństwem należy szacowana wartość parametru.
Estymata jest to wartość estymatora danej cechy statystycznej dla zadanej populacji obliczanego dla konkretnej próby (np. średnia arytmetyczna).

Reklama