HDFS ist die Version des Distributed File Systems von Apaches Hadoop Projekt. Sie speichert große Datenmengen nicht lokal auf einem einzigen Rechner, sondern verteilt auf eier Vielzahl verschiedener Systeme im Netzwerk. Dabei werden die einzelnen Rechner zu Clustern zusammengefasst, um so einfacher verwaltet werden zu können.

HDFS: Designed für Ausfälle

Allerdings geht diese Technologie von Ausfällen aus. Eine der grundlegenden Annahmen ist, dass es keine Ausnahme sondern den Normalfall darstellt, wenn einzelne dieser Rechner in diesen Clustern ausfallen. Zumal ein Grund dafür sein könnte, dass man üblicherweise auf teure Spezialhardware verzichtet und stattdessen preisgünstige Standardhardware für die einzelnen Rechner – oder Knoten, wie man sie ebenfalls nennt – verwendet.

Infolgedessen ist die Fehlertoleranz gegen diese Ausfälle eins der Hauptziele im Design der Technologie. Ein weiteres entscheidendes Merkmal ist die leichte Hinzufügbarkeit neuer Knoten und die damit verbundene ständige Erweiterbarkeit des Clusters.

Optimiert für MapReduce

Für den Benutzer sieht dieses Distributed File System wie ein normales Dateisystem aus. Schließlich macht es für ihn keinen Unterschied, dass die gespeicherten Daten in mehrfacher Ausführung verteilt im Netzwerk gespeichert sind, um vor Ausfällen geschützt zu sein. Im Gegensatz zu anderen verteilten Dateisystemen ist HDFS für die Entwicklung von MapReduce Anwendungen optimiert.

Im Umfeld von Big Data steht das Sammeln und Verwalten großer Datenmengen im Fokus. Folglich bietet das Apache Hadoop Projekt mit HDFS eine gelungene Lösung für die damit verbundenen Herausforderungen.