Big data

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania
Wizualizacja edycji Wikipedii jako klasyczny przykład big data

Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy.

Gartner – założona w 1979 roku w Stanach Zjednoczonych firma analityczno-doradcza specjalizująca się w zagadnieniach strategicznego wykorzystania technologii oraz zarządzania technologiami.Serial ATA (ang. Serial Advanced Technology Attachment, SATA) – szeregowa magistrala komputerowa, opracowana i certyfikowana przez SATA-IO, służąca do komunikacji pomiędzy adapterami magistrali hosta (HBA) a urządzeniami pamięci masowej, takimi jak dyski twarde, SSD, napędy optyczne i taśmowe. SATA jest bezpośrednim następcą równoległej magistrali ATA.

Pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da się przetwarzać przy użyciu trywialnych, powszechnie dostępnych metod. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji). Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych. Wykorzystanie do analiz dużych zbiorów danych oznacza jednocześnie, że nie trzeba ograniczać się do mniejszych zbiorów określanych za pomocą różnych sposobów doboru próby, co eliminuje związane z tym błędy.

Dobór próby jest częścią badania statystycznego. Polega na wybraniu pewnych indywidualnych obserwacji, które tworząc tzw. próbę statystyczną pozwolą uzyskać pewną wiedzę o całej populacji.Petabajt (skrót PB) – jednostka używana w informatyce oznaczająca (zgodnie z zaleceniami IEC) biliard = 1 125 899 906 842 624 bajtów.

Charakterystyka[ | edytuj kod]

W 2001 roku META Group opublikowała raport, który opisuje big data w modelu 3V:

  • duża ilość danych (ang. volume);
  • duża prędkość przetwarzania danych (ang. velocity);
  • duża różnorodność danych (ang. variety).
  • Model ten uzupełniony został o kolejne składowe – weryfikację posiadanych danych (ang. veracity) oraz wartość dla użytkownika (ang. value).

    Zastosowanie modelu w polskiej wersji 4W przedstawia się następująco:

    Wiedza – termin używany powszechnie, istnieje wiele definicji tego pojęcia. Nowa Encyklopedia Powszechna definiuje wiedzę jako „ogół wiarygodnych informacji o rzeczywistości wraz z umiejętnością ich wykorzystywania”.Przetwarzanie danych (ang. data processing) – przekształcanie treści i postaci danych wejściowych (ang. input) metodą wykonywania systematycznych operacji w celu uzyskania wyników (ang. output) w postaci z góry określonej. Wyróżnia się przetwarzanie numeryczne (stosunkowo skomplikowane algorytmy i niewielkie ilości danych) oraz systemowe (stosunkowo proste algorytmy i duże ilości danych).
  • wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
  • wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
  • wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
  • weryfikacja – koniecznie weryfikuj hipotezy i wnioski.
  • W roku 2012 Gartner uzupełnił podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”.

    Library of Congress Control Number (LCCN) – numer nadawany elementom skatalogowanym przez Bibliotekę Kongresu wykorzystywany przez amerykańskie biblioteki do wyszukiwania rekordów bibliograficznych w bazach danych i zamawiania kart katalogowych w Bibliotece Kongresu lub u innych komercyjnych dostawców. Informacja (łac. informatio – przedstawienie, wizerunek; informare – kształtować, przedstawiać) – termin interdyscyplinarny, definiowany różnie w różnych dziedzinach nauki; najogólniej – właściwość pewnych obiektów, relacja między elementami zbiorów pewnych obiektów, której istotą jest zmniejszanie niepewności (nieokreśloności).


    Podstrony: 1 [2] [3] [4]




    Warto wiedzieć że... beta

    Terabajt (skrót TB), Tebibajt (skrót TiB) – jednostki używane w informatyce między innymi do określania rozmiaru największych pamięci masowych, zasobów plików i baz danych. Przedrostek tera pochodzi od greckiego słowa téras (potwór); przedrostek tebi został utworzony sztucznie (zob. przedrostek dwójkowy).
    Napęd półprzewodnikowy, SSD, solidoid (od ang. solid-state drive) – urządzenie pamięci masowej zbudowane w oparciu o pamięć flash.
    Apache Hadoop - otwarta implementacja paradygmatu MapReduce Google. Umożliwia tworzenie działających w rozproszeniu aplikacji, które przeprowadzają obliczenia na dużych ilościach danych. Jest jednym z projektów rozwijanych przez fundacje Apache. Jeszcze zanim osiągnął wydanie stabilne, był już wykorzystywany w poważnych zastosowaniach (Amazon, AOL, Facebook, Yahoo). Autorem projektu jest Doug Cutting.
    MapReduce jest stworzoną przez firmę Google platformą do przetwarzania równoległego dużych zbiorów danych w klastrach komputerów. Nazwa była zainspirowana funkcjami map i reduce z programowania funkcyjnego. Część platformy została opatentowana w USA.
    Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) - jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
    Fizyka cząstek elementarnych, fizyka wielkich energii – dział fizyki, którego celem jest badanie cząstek atomowych oraz oddziaływań zachodzących między nimi.
    Baza danych – zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego specjalizowanego do gromadzenia i przetwarzania tych danych. Program taki (często pakiet programów) nazywany jest „systemem zarządzania bazą danych” (ang. database management system, DBMS).

    Reklama