Hurtownia danych

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Hurtownia danych (ang. data warehouse) – rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości.

Ralph Kimball jest uważany za jednego z pierwszych twórców hurtowni danych, znany z przekonania, że hurtownie danych powinny być projektowane w sposób szybki i zrozumiały. Jego metodologia, zwana modelowaniem przestrzennym (metodologia Kimballa) stała się standardem w dziedzinie wspomagania decyzji. Do tej pory Ralph jest autorem ponad 100 artykułów i kolumn dla Intelligent Enterprise, zdobywając nagrodę Readers Choice pięć lat z rzędu. Jest również autorem wielu książek o narzędziach i cyklach życia hurtowni danych, które stały się bestsellerami w tej tematyce.Tabela w bazach danych jest wydzielonym logicznie zbiorem danych, zorganizowanych w formie tabeli składającej się z wierszy dzielonych na kolumny. Jest to obiekt teoretyczny i nie należy go mylić z jej graficzną reprezentacją, czy miejscem zajmowanym w pamięci komputera. W zależności od typu bazy danych wewnętrzna organizacja podziału danych na kolumny i wiersze jest różna i często umowna.

Charakterystyka[ | edytuj kod]

Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używane są także podobne technologie). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych klientów). Dane te często pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu.

OLAP (ang. OnLine Analytical Processing) – oprogramowanie wspierające podejmowanie decyzji, które pozwala użytkownikowi analizować szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzędzia OLAP są często używane do wykonywania analiz trendów sprzedaży, czy też analiz finansowych (hurtownia danych). Są też przydatne do wstępnego przeglądania zbioru danych przez analityka we wstępnej fazie analiz statystycznych.OSI (ang. Open Systems Interconnection) lub Model OSI (pełna nazwa ISO OSI RM, ang. ISO OSI Reference Model – model odniesienia łączenia systemów otwartych) – standard zdefiniowany przez ISO oraz ITU-T opisujący strukturę komunikacji sieciowej.

W praktyce hurtownie są bazami danych integrującymi dane ze wszystkich pozostałych systemów bazodanowych w przedsiębiorstwie. Ta integracja polega na cyklicznym zasilaniu hurtowni danymi systemów produkcyjnych (może być tych baz lub systemów dużo i mogą być rozproszone).

Architektura bazy hurtowni jest zorientowana na optymalizację szybkości wyszukiwania i jak najefektywniejszą analizę zawartości. Stąd bywa, że hurtownie danych nie są realizowane za pomocą relacyjnych baz danych, gdyż takie bazy ustępują szybkością innym rozwiązaniom.

Planowanie zasobów przedsiębiorstwa (ang. enterprise resource planning (ERP), tłumaczone przez producentów też jako zaawansowane zarządzanie zasobami) – określenie klasy systemów informatycznych służących wspomaganiu zarządzania przedsiębiorstwem lub współdziałania grupy współpracujących ze sobą przedsiębiorstw, poprzez gromadzenie danych oraz umożliwienie wykonywania operacji na zebranych danych.Planowanie zapotrzebowania materiałowego (ang. Material Requirements Planning (MRP)) – jest to zbiór procesów do wyznaczania zapotrzebowań na zasoby materiałowe (surowce, materiały, komponenty itp.). Miały one za zadanie obliczyć dokładną ilość materiałów i terminarz dostaw w taki sposób, by sprostać ciągle zmieniającemu się popytowi na poszczególne produkty.

W praktyce w ramach architektury hurtowni wyróżniany jest poziom danych detalicznych oraz warstwa agregatów/kostek tematycznych.

Użytkownicy końcowi hurtowni, czyli najczęściej zarząd firmy, korzystają z danych hurtowni poprzez różne systemy wyszukiwania danych (np. Online Analytical Processing (OLAP)).

Hurtownia danych stanowi zatem rozbudowaną bazę danych, przechowującą olbrzymią ilość danych zbieranych w czasie. Dodatkowo zakłada się, że przeprowadzane na danych operacje mają charakter analityczny (wyszukiwanie i analiza). Nie stosuje się więc typowych transakcji. Ze względu na ilość i tematykę danych przeprowadzane analizy mogą polegać na szukaniu trendów, zależności, wzorców itp. Stosowana tu eksploracja danych (ang. data mining) wyszukuje ogólne formy wiedzy z olbrzymiej ilości danych. Przeprowadzane na hurtowniach danych wyszukiwania mają najczęściej charakter wielowymiarowy – nie ograniczają się bowiem tylko do jednej tabeli, lecz korzystają z wielu relacji. Dane przechowywane w hurtowni są tematycznie spójne (dotyczą konkretnego problemu lub instytucji, np. szpitala) oraz zintegrowane, co najczęściej cechuje się centralizacją przechowywania danych (wszelkie dane są przechowywane w jednym miejscu). Istnieją również zawężone tematycznie hurtownie danych (np. do jednego oddziału szpitala, lub kliniki) nazywane minihurtowniami danych (z ang. data mart). Minihurtownie mogą istnieć jako oddzielne jednostki lub stanowić element hurtowni danych.

Transakcja - zbiór operacji na bazie danych, które stanowią w istocie pewną całość i jako takie powinny być wykonane wszystkie lub żadna z nich. Warunki jakie powinny spełniać transakcje bardziej szczegółowo opisują zasady ACID (Atomicity, Consistency, Isolation, Durability - Atomowość, Spójność, Izolacja, Trwałość).Model relacyjny – model organizacji danych bazujący na matematycznej teorii mnogości, w szczególności na pojęciu relacji. Na modelu relacyjnym oparta jest relacyjna baza danych (ang. Relational Database) – baza danych, w której dane są przedstawione w postaci relacyjnej.


Podstrony: 1 [2] [3] [4] [5]
Warto wiedzieć że... beta

Model bazy danych – zbiór zasad (specyfikacji), opisujących strukturę danych w bazie danych. Określane są również dozwolone operacje. Definiuje się strukturę danych poprzez specyfikację reprezentacji dozwolonych w modelu obiektów (encji) oraz ich związków. W informatyce głównymi modelami baz danych są:
Zarządzanie relacjami z klientami, CRM (ang. customer relationship management) – to zestaw procedur i narzędzi istotnych w zarządzaniu kontaktami z klientami.
Zarządzanie projektem – zbiór czynności wykonywanych w celu osiągnięcia wyznaczonych celów głównych i pośrednich w skończonym czasie. Zawiera się w nim między innymi planowanie, harmonogramowanie, realizacja i kontrola zadań potrzebnych do osiągnięcia celów projektu.
ETL (ang. Extract, Transform and Load) – narzędzia wspomagające proces pozyskania danych dla baz danych, szczególnie dla hurtowni danych.
System wspomagania decyzji (ang. Decision Support System (DSS)) – system dostarczający informacji i wiedzy, wykorzystywany przy podejmowaniu decyzji, głównie przez kierownictwo średniego i wysokiego szczebla oraz analityków korporacyjnych. W efekcie wykorzystania systemów DSS uzyskujemy raporty i zestawienia, które dostarczane są kierownictwu w ramach systemów informowania kierownictwa (Executive Information Systems (EIS)). Dlatego też często systemy DSS określane są jako specjalizowana forma EIS.
Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) - jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
General Mills (NYSE: GIS) – amerykańskie przedsiębiorstwo branży spożywczej, z siedzibą w Golden Valley w stanie Minnesota.

Reklama