MapReduce

Einfach gesagt handelt es sich bei MapReduce um ein Verfahren zur hoch effizienten Verarbeitung von großen Datenmengen. Es kann sich dabei um strukturierte oder unstrukturierte Daten handeln. Ursprünglich wurde MapReduce im Jahr 2004 von Google entwickelt um die Indexierung auf Webseiten zu ermöglichen.

Funktionen

MapReduce besteht aus zwei Funktionen, nämlich aus einer Map-Funktion und einer Reduce-Funktion. Map verwendet als Eingabe einen Record, also eine Zeile. Als Ausgabe erzeugt es eine Menge an Schlüssel- und Wertpaare (intermediate key/intermediate value). Es verteilt dann auch die Aufgaben an die verschiedenen Knoten eines Clusters.

Die Reduce-Funktion organisiert die Berechnungen dann und setzt sie wieder zusammen.

Die Verteilung und Parallelisierung ist deshalb nötig, weil einzelne Rechner mit den Berechnungen überfordert wären.

Anwendungsbereiche & Beispiele

MapReduce wird – wie schon erwähnt – vor allem in Bereichen verwendet, in denen man große Datenmengen verarbeitet. Beispiele dafür sind unter anderem Data Mining, Finanzanalysen oder aber wissenschaftliche Simulationen.

Das Verfahren kommt außerdem bei einigen Suchmaschinenanbietern wie Yahoo oder in früheren Zeiten auch bei Google zum Einsatz. Außerdem verwenden viele E-Mail Anbieter MapReduce zum ausfindig machen von Spam Mails.

Auch Facebook verwendet dieses Verfahren zum Erkennen von Spam. Unter anderem kommt es auch bei der Optimierung von Ads und Data Mining zum Einsatz.