• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Regresja logistyczna



    Podstrony: 1 [2] [3] [4]
    Przeczytaj także...
    Rozkład normalny, zwany też rozkładem Gaussa – jeden z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, społecznych itp. Wykres funkcji prawdopodobieństwa tego rozkładu jest krzywą dzwonową.Model statystyczny – hipoteza lub układ hipotez, sformułowanych w sposób matematyczny (odpowiednio w postaci równania lub układu równań), który przedstawia zasadnicze powiązania występujące pomiędzy rozpatrywanymi zjawiskami rzeczywistymi.

    Regresja logistyczna – jedna z metod regresji używanych w statystyce w przypadku, gdy zmienna zależna jest na skali dychotomicznej (przyjmuje tylko dwie wartości). Zmienne niezależne w analizie regresji logistycznej mogą przyjmować charakter nominalny, porządkowy, przedziałowy lub ilorazowy. W przypadku zmiennych nominalnych oraz porządkowych następuje ich przekodowanie w liczbę zmiennych zero-jedynkowych taką samą lub o 1 mniejszą niż liczba kategorii w jej definicji.

    Statystyka (niem. Statistik, „badanie faktów i osób publicznych”, z łac. [now.] statisticus, „polityczny, dot. polityki”, od status, „państwo, stan”) – nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska, w tym masowe.Funkcja logitowa / logit - funkcja stosowana w statystyce (metoda regresji logistycznej) do przekształcania prawdopodobieństwa na logarytm ilorazu szans:

    Zwykle wartości zmiennej objaśnianej wskazują na wystąpienie, lub brak wystąpienia pewnego zdarzenia, które chcemy prognozować. Regresja logistyczna pozwala wówczas na obliczanie prawdopodobieństwa tego zdarzenia (tzw. prawdopodobieństwo sukcesu).

    Formalnie model regresji logistycznej jest uogólnionym modelem liniowym (GLM), w którym użyto logitu jako funkcji wiążącej.

    Szansa[ | edytuj kod]

    Regresja logistyczna opiera się na specyficznym sposobie wyrażania prawdopodobieństwa, zwanym szansą (ang. odds).

    Regresja logistyczna – jedna z metod regresji używanych w statystyce w przypadku, gdy zmienna objaśniana jest na skali dychotomicznej (przyjmuje tylko dwie wartości).Proces Bernoullego jest procesem stochastycznym składającym się z ciągu niezależnych zmiennych losowych X1, X2, X3, ... takich że

    Zamiast określać prawdopodobieństwo klasycznie, za pomocą stosunku liczby sukcesów do liczby wszystkich prób, oblicza się szansę, czyli stosunek prawdopodobieństwa sukcesu do prawdopodobieństwa porażki.

    Można ją łatwo wyliczyć ze zwykłego prawdopodobieństwa:

    gdzie:

    Intuicyjnie, zdarzenie losowe to pewien zbiór możliwych wyników danego eksperymentu. Może to być zarówno zbiór składający się z pojedynczego wyniku, jak i zbiór złożony z większej ilości elementów. Zdarzenia losowe rozważa się w rachunku prawdopodobieństwa.Library of Congress Control Number (LCCN) – numer nadawany elementom skatalogowanym przez Bibliotekę Kongresu wykorzystywany przez amerykańskie biblioteki do wyszukiwania rekordów bibliograficznych w bazach danych i zamawiania kart katalogowych w Bibliotece Kongresu lub u innych komercyjnych dostawców.
    – stała regresji dla regresji logistycznej, – współczynnik regresji logistycznej dla -tej zmiennej niezależnej, – zmienna niezależna (-ta).

    Istnieje też odwrotne przekształcenie:

    Regresja − metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.Prawdopodobieństwo – ogólne określenie jednego z wielu pojęć służących modelowaniu doświadczenia losowego poprzez przypisanie poszczególnym zdarzeniom losowym liczb, zwykle z przedziału jednostkowego (w zastosowaniach często wyrażanych procentowo), wskazujących szanse ich zajścia. W rozumieniu potocznym wyraz „prawdopodobieństwo” odnosi się do oczekiwania względem rezultatu zdarzenia, którego wynik nie jest znany (niezależnie od tego, czy jest ono w jakimś sensie zdeterminowane, miało miejsce w przeszłości, czy dopiero się wydarzy); w ogólności należy je rozumieć jako pewną miarę nieprzewidywalności.

    Szansa ma pewną zaletę w porównaniu ze zwykłym zapisem prawdopodobieństwa – przyjmuje dla wartości z zakresu a jej logarytm wartości z zakresu

    Regresja liniowa – metoda estymowania wartości oczekiwanej zmiennej y {displaystyle y} przy znanych wartościach innej zmiennej lub zmiennych x {displaystyle x} . Szukana zmienna y {displaystyle y} jest tradycyjnie nazywana zmienną objaśnianą lub zależną. Inne zmienne x {displaystyle x} nazywa się zmiennymi objaśniającymi lub niezależnymi. Zarówno zmienne objaśniane i objaśniające mogą być wielkościami skalarnymi lub wektorami.Skala dychotomiczna – jeden z rodzajów skal pomiarowych, szczególny przypadek skali nominalnej. Zmienne są na skali dychotomicznej, gdy przyjmują tylko dwie wartości.

    Dzięki temu można stosować do szacowania logarytmu szansy metody regresji nie ograniczone do przedziału [0,1] (np. regresję liniową).

    Funkcja logit

    Funkcja przekształcająca prawdopodobieństwo na logarytm szansy zwana jest logitem i przyjmuje postać:

    Funkcja odwrotna:

    Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) - jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.Zmienna objaśniająca / egzogeniczna / zewnętrzna / predyktor – jest to zmienna w modelu statystycznym (czyli także np. w modelu ekonometrycznym), na podstawie której wylicza się zmienną objaśnianą (endogeniczną). Zmiennych objaśniających zwykle występuje wiele w jednym modelu.

    Model regresji logistycznej[ | edytuj kod]

    Regresja logistyczna zakłada, że zmienna objaśniana ma rozkład dwupunktowy:

    Zmienna losowa – funkcja przypisująca zdarzeniom elementarnym liczby. Intuicyjnie: odwzorowanie przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej. Zmienne losowe to funkcje mierzalne względem przestrzeni probabilistycznych.Biblioteka Narodowa Francji (fr. Bibliothèque nationale de France, BnF) – francuska biblioteka narodowa, znajdująca się w Paryżu. Przewidziana jest jako repozytorium dla wszystkich materiałów bibliotecznych, wydawanych we Francji. Obecnym dyrektorem Biblioteki jest Bruno Racine.
      dla

    gdzie liczba prób w procesie Bernoulliego jest znana, a prawdopodobieństwo sukcesu jest nieznane. Przykładem tej sytuacji jest rozkład odsetka kwiatów, które zakwitną, wśród sadzonek.

    Rozkład dwupunktowy – rozkład dyskretny prawdopodobieństwa w którym zmienna losowa przyjmuje tylko dwie różne wartości. Jest on na przykład rezultatem doświadczenia (zwanego próbą Bernoulliego), w wyniku którego określone zdarzenie A wystąpi lub nie wystąpi.Liniowa analiza dyskryminacyjna (ang. linear discriminant analysis, LDA) i związany z nią liniowy dyskryminator Fishera (ang. Fisher’s linear discriminant, FLD) są używanie w uczeniu maszynowym do znalezienia liniowej kombinacji cech, które najlepiej rozróżniają dwie lub więcej klas obiektów lub zdarzeń. Wynikowe kombinacje są używane jako klasyfikator liniowy lub, częściej, służą redukcji wymiarów do późniejszej klasyfikacji statystycznej.

    Model zakłada, że dla każdej próby Bernoulliego (wartość ), istnieje zbiór zmiennych objaśniających, które niosą pewną informację na temat prawdopodobieństwa sukcesu. Te zmienne objaśniające można uważać za -elementowy wektor losowy Model przyjmuje wówczas postać:

    Sieć neuronowa (sztuczna sieć neuronowa) – ogólna nazwa struktur matematycznych i ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie sygnałów poprzez rzędy elementów, zwanych sztucznymi neuronami, wykonujących pewną podstawową operację na swoim wejściu. Oryginalną inspiracją takiej struktury była budowa naturalnych neuronów, łączących je synaps, oraz układów nerwowych, w szczególności mózgu.Logarytm naturalny (logarytm Nepera, logarytm hiperboliczny) – logarytm o podstawie e = 2,718 281 828…, gdzie e jest liczbą Eulera. Oznaczany jest typowo symbolem „ln”.

    Logit nieznanego prawdopodobieństwa sukcesu jest modelowany jako liniowa funkcja

    Perceptron - sieć neuronowa najprostszego typu. Pojęcie to stosowane jest zamiennie do określenia sieci składającej się z:Odwrotna dystrybuanta – uogólniona funkcja odwrotna do dystrybuanty danego rozkładu prawdopodobieństwa. Zwykle oznaczana Φ − 1 ( p ) {displaystyle Phi ^{-1}(p)}

    Do modelu można wprowadzić stałą, tworząc zmienną objaśniającą, mającą wszędzie wartość 1, czyli ustawiając dla pewnego i wszystkich Nieznane parametry są zwykle estymowane metodą największej wiarygodności.

    Kontrola autorytatywna – w terminologii bibliotekoznawczej określenie procedur zapewniających utrzymanie w sposób konsekwentny haseł (nazw, ujednoliconych tytułów, tytułów serii i haseł przedmiotowych) w katalogach bibliotecznych przez zastosowanie wykazu autorytatywnego zwanego kartoteką wzorcową.International Standard Serial Number, ISSN czyli Międzynarodowy Znormalizowany Numer Wydawnictwa Ciągłego – ośmiocyfrowy niepowtarzalny identyfikator wydawnictw ciągłych tradycyjnych oraz elektronicznych. Jest on oparty na podobnej koncepcji jak identyfikator ISBN dla książek, ISAN dla materiałów audio-wideo. Niektóre publikacje wydawane w seriach mają przyporządkowany zarówno numer ISSN, jak i ISBN.

    Interpretacją szacowanego parametru jest addytywny wpływ, jaki ma jednostkowa zmiana zmiennej na logarytm ilorazu szans (ang. odds ratio), definiowanego jako:

    Gemeinsame Normdatei (GND) – kartoteka wzorcowa, stanowiąca element centralnego katalogu Niemieckiej Biblioteki Narodowej (DNB), utrzymywanego wspólnie przez niemieckie i austriackie sieci biblioteczne.

    gdzie: to rozpatrywane grupy, to prawdopodobieństwo wystąpienia zdarzenia w grupie, a to odpowiadająca mu szansa.

    W przypadku zmiennych objaśniających na skali dychotomicznej (np. płeć), jest estymacją szansy, powiedzmy, mężczyzn w porównaniu z kobietami.

    Tak definiowany model regresji logistycznej wymaga, aby:

  • rozpatrywane obserwacje były od siebie niezależne;
  • zależał w sposób liniowy od zmiennych objaśniających.
  • Model posiada równoważne sformułowanie w postaci:

    Ta forma funkcjonalna jest znana jako perceptron lub jednowarstwowa sieć neuronowa.

    Podstrony: 1 [2] [3] [4]




    Reklama

    Czas generowania strony: 0.957 sek.