Klasyfikacja statystyczna

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Klasyfikacja statystyczna – rodzaj algorytmu statystycznego, który przydziela obserwacje statystyczne do klas, bazując na atrybutach (cechach) tych obserwacji.

Uczenie nadzorowane – uczenie maszynowe, które zakłada obecność ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście.Sprawdzian krzyżowy (lub walidacja krzyżowa, kroswalidacja, sprawdzanie krzyżowe) - metoda statystyczna, polegająca na podziale próby statystycznej na podzbiory, a następnie przeprowadzaniu wszelkich analiz na niektórych z nich (zbiór uczący), podczas gdy pozostałe służą do potwierdzenia wiarygodności jej wyników (zbiór testowy, zbiór walidacyjny).

Definicja formalna[ | edytuj kod]

Dla danego zbioru danych trenujących znaleźć klasyfikator który przydziela obiektowi klasę Przykładowo, jeśli problem dotyczy filtrowania spamu, wówczas to pewna reprezentacja wiadomości, a to „spam” lub „nie spam”.

Naiwny klasyfikator bayesowski – prosty klasyfikator probabilistyczny. Naiwne klasyfikatory bayesowskie są oparte na założeniu o wzajemnej niezależności predyktorów (zmiennych niezależnych). Często nie mają one żadnego związku z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. Bardziej opisowe jest określenie – „model cech niezależnych”. Ponadto model prawdopodobieństwa można wyprowadzić korzystając z twierdzenia Bayesa.Cecha statystyczna – właściwość populacji, która jest przedmiotem badania statystycznego. Zgodnie z definicją cecha statystyczna jest to funkcja przypisująca elementom populacji elementy zbioru wartości cechy statystycznej.

Przykłady klasyfikatorów:

  • klasyfikatory liniowe
  • naiwny klasyfikator bayesowski
  • perceptron
  • K-najbliższych sąsiadów
  • drzewa decyzyjne
  • sieci bayesowskie
  • Zobacz też[ | edytuj kod]

  • uczenie maszynowe
  • uczenie nadzorowane
  • uczenie nienadzorowane




  • Warto wiedzieć że... beta

    Algorytm – w matematyce skończony ciąg jasno zdefiniowanych czynności, koniecznych do wykonania pewnego rodzaju zadań. Słowo "algorytm" pochodzi od starego angielskiego słowa algorism, oznaczającego wykonywanie działań przy pomocy liczb arabskich (w odróżnieniu od abacism – przy pomocy abakusa), które z kolei wzięło się od nazwiska, które nosił Muhammad ibn Musa al-Chuwarizmi (أبو عبد الله محمد بن موسى الخوارزمي), matematyk perski z IX wieku.
    Obserwacja statystyczna – pojedyncza realizacja zmiennej losowej. W praktyce zwykle jest to wielowymiarowa zmienna losowa, wówczas obserwacją statystyczną jest wektor realizacji składowych zmiennych losowych dotyczących tego samego badanego elementu populacji (jednostki statystycznej).
    Perceptron - sieć neuronowa najprostszego typu. Pojęcie to stosowane jest zamiennie do określenia sieci składającej się z:
    Uczenie nienadzorowane – uczenie maszynowe, które zakłada brak obecności ludzkiego nadzoru nad tworzeniem funkcji odwzorowującej wejście systemu na jego wyjście.
    Sieć bayesowska służy do przedstawiania zależności pomiędzy zdarzeniami bazując na rachunku prawdopodobieństwa. Klasycznym przykładem jest reprezentowanie zależności pomiędzy symptomami a chorobą.

    Reklama