• Artykuły
  • Forum
  • Ciekawostki
  • Encyklopedia
  • Hurtownia danych



    Podstrony: [1] [2] 3 [4] [5]
    Przeczytaj także...
    Instytut Łączności – Państwowy Instytut Badawczy – instytut utworzony w 1934 przez Janusza Groszkowskiego, obecnie instytut badawczy działający w obszarze telekomunikacji i technik informacyjnych.Archiwizacja danych (ang. data archiving) – w rozumieniu informatyki, jest to czynność przeniesienia danych w inne miejsce w pamięci masowej, w celu ich długotrwałego przechowywania. W Polsce pojęcie często mylone z kopią bezpieczeństwa. W procesie archiwizacji dane starsze, mniej używane przenoszone są na wolniejsze, tańsze nośniki danych. Wykorzystuje się przy tym tzw. hierarchiczne zarządzanie pamięcią masową.
    Architektura[]
  • Źródło danych – bazy danych przedsiębiorstwa, najczęściej relacyjne. Dane o zróżnicowanej jakości, strukturze logicznej a także wielkości danych; do warstwy tej należą przede wszystkim bazy danych systemów ERP (ang. Enterprise Resource Planning) oraz MRP (ang. Material Requirements Planning).
  • Obszar przejściowy – dane pobrane z systemów źródłowych są oczyszczane i dostosowane do wymagań hurtowni danych. Warstwa ta nie jest dostępna dla użytkowników końcowych hurtowni danych; do tej warstwy należą narzędzia ETL (ang. Extract, Transform and Load).
  • Warstwa metadanych
  • metadane biznesowe: tabele wymiarów, data marty, agregaty, tabele faktów
  • metadane techniczne: mapowania i transformacje danych od systemu źródłowego do systemu docelowego
  • Warstwa prezentacji – warstwa dostępna dla użytkowników końcowych w postaci raportów i analiz; reprezentowana w postaci data martów – zorientowanych na procesy biznesowe zbiorów danych zaprojektowanych i dostrojonych do szybkiego i efektywnego dostarczania informacji.
  • Znormalizowane vs. wielowymiarowe podejście do gromadzenia danych[]

    Istnieją dwa najważniejsze podejścia do gromadzenia danych w hurtowniach danych – podejście wielowymiarowe i znormalizowane.

    Ralph Kimball jest uważany za jednego z pierwszych twórców hurtowni danych, znany z przekonania, że hurtownie danych powinny być projektowane w sposób szybki i zrozumiały. Jego metodologia, zwana modelowaniem przestrzennym (metodologia Kimballa) stała się standardem w dziedzinie wspomagania decyzji. Do tej pory Ralph jest autorem ponad 100 artykułów i kolumn dla Intelligent Enterprise, zdobywając nagrodę Readers Choice pięć lat z rzędu. Jest również autorem wielu książek o narzędziach i cyklach życia hurtowni danych, które stały się bestsellerami w tej tematyce.Tabela w bazach danych jest wydzielonym logicznie zbiorem danych, zorganizowanych w formie tabeli składającej się z wierszy dzielonych na kolumny. Jest to obiekt teoretyczny i nie należy go mylić z jej graficzną reprezentacją, czy miejscem zajmowanym w pamięci komputera. W zależności od typu bazy danych wewnętrzna organizacja podziału danych na kolumny i wiersze jest różna i często umowna.
    Podejście wielowymiarowe, którego zwolennicy nazywani są „Kimballitami”, wierzą w podejście Ralpha Kimballa w którym to stwierdzono, że hurtownie danych powinny być zbudowane zgodnie z modelem wielowymiarowym bazy danych (ang. Star schema). Podejście znormalizowane zaś nazywane jest równie modelem 3NF. Jego zwolennicy nazywani są „Inmonitami”, wierzą oni w podejście Billa Inmona, które zakłada, że hurtownie danych powinny być zbudowane zgodnie z modelem normalizacyjnym (modelem E-R).

    W podejściu wielowymiarowym transakcje danych są podzielone albo na poszczególne „fakty”, które są generalnie transakcjami numerycznymi, albo „wielowymiarowe”, które odnoszą się do kontekstów tych „faktów”. Na przykład transakcja sprzedaży może zostać rozbita na kolejne numery zakupionych produktów oraz odpowiadające im ceny, a wielowymiarowo dane zostałyby opisane za pomocą nazwiska kupującego, numeru produktu, położenia sprzedającego i kupującego oraz danych osoby otrzymującej zamówienie.

    OLAP (ang. OnLine Analytical Processing) – oprogramowanie wspierające podejmowanie decyzji, które pozwala użytkownikowi analizować szybko informacje zawarte w wielowymiarowych widokach i hierarchiach. Narzędzia OLAP są często używane do wykonywania analiz trendów sprzedaży, czy też analiz finansowych (hurtownia danych). Są też przydatne do wstępnego przeglądania zbioru danych przez analityka we wstępnej fazie analiz statystycznych.OSI (ang. Open Systems Interconnection) lub Model OSI (pełna nazwa ISO OSI RM, ang. ISO OSI Reference Model – model odniesienia łączenia systemów otwartych) – standard zdefiniowany przez ISO oraz ITU-T opisujący strukturę komunikacji sieciowej.

    Kluczową przewagą podejścia wielowymiarowego jest to, że hurtownia danych jest prostsza do zrozumienia i do użytkowania. Także pozyskiwanie danych z hurtowni danych pozwala na bardzo szybkie jej użytkowanie. Struktury wielowymiarowe są proste do zrozumienia dla użytkowników biznesowych, ponieważ ich struktura podzielona jest na pomiary/fakty oraz konteksty. Fakty odnoszą się do procesów organizacyjnych w biznesie oraz do systemów transakcyjnych, podczas gdy wielowymiarowe ich otoczenie zawiera konteksty o pomiarach (Kimball, Ralph 2008).

    Planowanie zasobów przedsiębiorstwa (ang. enterprise resource planning (ERP), tłumaczone przez producentów też jako zaawansowane zarządzanie zasobami) – określenie klasy systemów informatycznych służących wspomaganiu zarządzania przedsiębiorstwem lub współdziałania grupy współpracujących ze sobą przedsiębiorstw, poprzez gromadzenie danych oraz umożliwienie wykonywania operacji na zebranych danych.Planowanie zapotrzebowania materiałowego (ang. Material Requirements Planning (MRP)) – jest to zbiór procesów do wyznaczania zapotrzebowań na zasoby materiałowe (surowce, materiały, komponenty itp.). Miały one za zadanie obliczyć dokładną ilość materiałów i terminarz dostaw w taki sposób, by sprostać ciągle zmieniającemu się popytowi na poszczególne produkty.

    Podstawowymi wadami podejścia wielowymiarowego są:

  • Utrzymanie porządku i integracji faktów wielowymiarowych podczas wprowadzania danych do hurtowni danych z innych systemów transakcyjnych jest bardzo skomplikowane;
  • Trudno jest zmodyfikować hurtownię danych jeżeli przyjmuje się podejście wielowymiarowe zmieniając sposób organizacji danych.
  • W podejściu znormalizowanym dane w hurtowni danych są przechowywane zgodnie z zasadami normalizacji baz danych. Tabele są pogrupowane według ich tematyki odnoszącej się do ogólnych kategorii danych (np. dane dotyczące klientów, produktów, finansów itd.). Struktura znormalizowana dzieli dane na jednostki, które tworzą kilka tabel w relacyjnej bazie danych. Kiedy stosowane są w dużych przedsiębiorstwach rezultatem jest wiele tabel, które połączone są wspólną siecią. Ponadto każda utworzona jednostka jest przekonwertowywana do osobnych tabel gdy baza danych jest wprowadzana do użytku (Kimball, Ralph 2008). Główną zaletą tego podejścia jest to, że dodawanie nowych informacji do bazy danych jest bardzo proste. Wadą zaś tego podejścia jest ogromna ilość tabel, co może utrudniać użytkownikom:

    Transakcja - zbiór operacji na bazie danych, które stanowią w istocie pewną całość i jako takie powinny być wykonane wszystkie lub żadna z nich. Warunki jakie powinny spełniać transakcje bardziej szczegółowo opisują zasady ACID (Atomicity, Consistency, Isolation, Durability - Atomowość, Spójność, Izolacja, Trwałość).Model relacyjny – model organizacji danych bazujący na matematycznej teorii mnogości, w szczególności na pojęciu relacji. Na modelu relacyjnym oparta jest relacyjna baza danych (ang. Relational Database) – baza danych, w której dane są przedstawione w postaci relacyjnej.
  • łączenie danych z różnych źródeł w sensowne informacje a następnie;
  • dostęp do danych bez precyzyjnego zrozumienia źródeł danych i ich struktur w hurtowni danych.
  • Należy zauważyć, że oba podejścia – znormalizowane i wielowymiarowe – mogą być przedstawiane w diagramach relacyjnych jednostek i być w nich połączone. Różnicą pomiędzy tymi modelami jest stopień ich normalizacji. Oba te podejścia nie wykluczają się wzajemnie, są też podejścia odmienne. Model wielowymiarowy może posiadać dane do pewnego stopnia znormalizowane (Kimball, Ralph 2008).

    Model bazy danych – zbiór zasad (specyfikacji), opisujących strukturę danych w bazie danych. Określane są również dozwolone operacje. Definiuje się strukturę danych poprzez specyfikację reprezentacji dozwolonych w modelu obiektów (encji) oraz ich związków. W informatyce głównymi modelami baz danych są:Zarządzanie relacjami z klientami, CRM (ang. customer relationship management) – to zestaw procedur i narzędzi istotnych w zarządzaniu kontaktami z klientami.

    Standardowa implementacja[]

  • Rozmiar ponad 1 TB
  • Liczba użytkowników – około 100 (analityków)
  • Typowy czas wdrożenia – od 6 miesięcy do 3 lat


  • Podstrony: [1] [2] 3 [4] [5]



    w oparciu o Wikipedię (licencja GFDL, CC-BY-SA 3.0, autorzy, historia, edycja)

    Warto wiedzieć że... beta

    Zarządzanie projektem – zbiór czynności wykonywanych w celu osiągnięcia wyznaczonych celów głównych i pośrednich w skończonym czasie. Zawiera się w nim między innymi planowanie, harmonogramowanie, realizacja i kontrola zadań potrzebnych do osiągnięcia celów projektu.
    Normalizacja bazy danych jest to proces mający na celu eliminację powtarzających się danych w relacyjnej bazie danych. Główna idea polega na trzymaniu danych w jednym miejscu, a w razie potrzeby linkowania do danych. Taki sposób tworzenia bazy danych zwiększa bezpieczeństwo danych i zmniejsza ryzyko powstania niespójności (w szczególności problemów anomalii).
    ETL (ang. Extract, Transform and Load) – narzędzia wspomagające proces pozyskania danych dla baz danych, szczególnie dla hurtowni danych.
    System wspomagania decyzji (ang. Decision Support System (DSS)) – system dostarczający informacji i wiedzy, wykorzystywany przy podejmowaniu decyzji, głównie przez kierownictwo średniego i wysokiego szczebla oraz analityków korporacyjnych. W efekcie wykorzystania systemów DSS uzyskujemy raporty i zestawienia, które dostarczane są kierownictwu w ramach systemów informowania kierownictwa (Executive Information Systems (EIS)). Dlatego też często systemy DSS określane są jako specjalizowana forma EIS.
    Eksploracja danych (spotyka się również określenie drążenie danych, pozyskiwanie wiedzy, wydobywanie danych, ekstrakcja danych) (ang. data mining) - jeden z etapów procesu odkrywania wiedzy z baz danych (ang. Knowledge Discovery in Databases, KDD). Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
    General Mills (NYSE: GIS) – amerykańskie przedsiębiorstwo branży spożywczej, z siedzibą w Golden Valley w stanie Minnesota.
    Proces biznesowy lub metoda biznesowa – seria powiązanych ze sobą działań lub zadań, które rozwiązują określony problem lub prowadzą do osiągnięcia określonego efektu. Proces biznesowy często jest opisywany schematem blokowym.

    Reklama

    Czas generowania strony: 0.036 sek.