Bei Apache Hadoop handelt es sich um ein Framework für Open-Source Software mit dessen Hilfe man sehr große Mengen an Daten – strukturiert sowie unstrukturiert – effizient und mit hoher Geschwindigkeit auf Computerclustern verarbeiten kann. Das Programm ist in der Programmiersprache Java geschrieben. Die Software kann auf unterschiedlichen Architekturen betrieben werden und wird als eine Art Ökosystem angesehen.

Komponenten  

Die Basis bildet Hadoop Common. Es beinhaltet Grundfunktionen wie zum Beispiel Java-Archiv-Files und Scripts zum Start der Software. Hadoop Common kommuniziert über Schnittstellen mit den anderen Bestandteilen.

Das Hadoop Distributed File System ist für die Speicherung der Daten zuständig. Auf dem HDFS werden diese großen Datenmengen über viele verschiedene Server gespeichert und zur Verarbeitung bereitgestellt. Für den Fall, dass einzelne Rechner ausfallen, besitzt das HDFS die Funktion Daten zu duplizieren und diese auf verschiedenen Servern zu sichern.

Das nächste zentrale Element ist MapReduce. Es steuert die Verarbeitung und Berechnung der Datenmengen und deren Analyse. Das Programm teilt diese Verarbeitung in verschiedene Teilaufgaben, die parallel auf verschiedenen Computerclustern ausgeführt werden. Das Ergebnis fügt man dann zusammen.

YARN (= Yet Another Ressource Negotiater) wiederum ergänzt MapReduce. Es hilft bei der Verwaltung der verschiedenen Teilaufgaben in einem Computercluster.

Neben diesen Kernkomponenten gibt es noch einige wichtige ergänzende Komponenten. Dazu zählt unter anderem Apache Pig (das aus der High-Level- Programmiersprache Pig Latin besteht) und Apache Hive (ein Data Warehouse System für Hadoop). Aber auch Apache HBase (ein NoSQL-Datenbanksystem) oder Apache Mahout (eine Bibliothek für Data Mining und Machine Learning).

Anwendungsgebiete

Da Apache Hadoop für die Verarbeitung großer Datenmengen konzipiert ist, eignet sich die Software besonders gut für den Business-Intelligence-Bereich. Bekannte Nutzer der Software sind unter anderem Facebook und Yahoo.