Apache Hadoop

Z Wikipedii, wolnej encyklopedii
Przejdź do nawigacji Przejdź do wyszukiwania

Apache Hadoopotwarta platforma programistyczna napisana w języku Java przeznaczona do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych. Jest jednym z projektów rozwijanych przez fundację Apache. Wszystkie moduły Hadoop zostały zaprojektowane z założeniem, że awarie sprzętowe są rzeczą naturalną i powinny być automatycznie obsługiwane przez framework.

Otwarte oprogramowanie (ang. open source movement, dosł. ruch otwartych źródeł) – odłam ruchu wolnego oprogramowania (ang. free software), który proponuje nazwę open source software jako alternatywną dla free software, głównie z przyczyn praktycznych, a nie filozoficznych.Apache Software Foundation (ASF) – organizacja typu non-profit mająca na celu wspieranie projektów Apache typu Open Source, łącznie z serwerem HTTP Apache. Fundacja została stworzona w Stanach Zjednoczonych (stan Delaware) w czerwcu 1999 z przekształcenia Apache Group.

Apache Hadoop składa się z następujących modułów:

  • Hadoop Common – biblioteki i narzędzia używane przez pozostałe moduły;
  • Hadoop Distributed File System (HDFS) – rozproszony system plików;
  • Hadoop YARN – platforma do zarządzania zasobami klastra;
  • Hadoop MapReduce – implementacja paradygmatu MapReduce do przetwarzania dużych ilości danych.
  • Określenie Hadoop często jest używane nie tylko w odniesieniu do powyższych modułów, ale także do całego ekosystemu aplikacji, które mogą być używane w połączeniu z Hadoop: Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm.

    Apache Spark – otwarte oprogramowanie będące platformą programistyczną dla obliczeń rozproszonych. Początkowo rozwijany na Uniwersytecie Kalifornijskim w Berkeley, następnie przekazany Apache Software Foundation – organizacji, która rozwija go do dnia dzisiejszego. Obliczenia rozproszone (ang. distributed computing) – obliczenia, umożliwiające współdzielenie zasobów obliczeniowych, często rozproszonych geograficznie.

    Moduły MapReduce i HDFS zostały zainspirowane materiałami Google na temat ich implementacji MapReduce i ich rozproszonego systemu plików Google File System.

    Jeszcze zanim osiągnął wydanie stabilne, był już wykorzystywany w poważnych zastosowaniach (Amazon, AOL, Facebook, Yahoo).

    Autorami projektu są Doug Cutting oraz Mike Cafarella.

    Definicja intuicyjna: Java (wym. „dżawa”) to język programowania. Programy napisane w Javie można uruchamiać na wielu urządzeniach, takich jak telefony komórkowe lub komputery oraz pod różnymi systemami operacyjnymi, przy użyciu Wirtualnej maszyny Javy, która musi być w danym środowisku zainstalowana.Kontrola autorytatywna – w terminologii bibliotekoznawczej określenie procedur zapewniających utrzymanie w sposób konsekwentny haseł (nazw, ujednoliconych tytułów, tytułów serii i haseł przedmiotowych) w katalogach bibliotecznych przez zastosowanie wykazu autorytatywnego zwanego kartoteką wzorcową.

    Przypisy[ | edytuj kod]

    1. Apache Software Foundation: Hadoop Releases (ang.). apache.org. [dostęp 2019-04-28].
    2. What is the Hadoop Distributed File System (HDFS)? (ang.)
    3. Hadoop MapReduce Tutorial 2017-07-29 (ang.)
    4. Hadoop Creator goes to Cloudera 2015-11-26 (ang.)
    5. Cutting out for Cloudera just in time (ang.). [dostęp 2018-08-24].

    Linki zewnętrzne[ | edytuj kod]

  • Strona domowa projektu
  • Hadoop MapReduce Tutorial
  • Klaster komputerowy (ang. cluster) – grupa połączonych jednostek komputerowych, które współpracują ze sobą w celu udostępnienia zintegrowanego środowiska pracy.Gemeinsame Normdatei (GND) – kartoteka wzorcowa, stanowiąca element centralnego katalogu Niemieckiej Biblioteki Narodowej (DNB), utrzymywanego wspólnie przez niemieckie i austriackie sieci biblioteczne.




    Reklama