YARN (Yet Another Resouce Negotiator; auf Deutsch in etwa Noch ein Ressourcenverhandler) ist seit 2012 eine der wichtigsten Funktionen im Hadoop Framework. Dort ist es ab der zweiten Generation von Hadoop verfügbar. Dabei präsentierte die Apache Software Foundation YARN ursprünglich als neu gestalteten Ressourcen-Manager. Inzwischen ist es darüber hinaus gewachsen und wird als hoch skalierbares, verteiltes Betriebssystem für Big Data Anwendungen charakterisiert.

Als zentraler Ressourcen-Manager überwacht es, wie Applikationen einzelne Systemressourcen in Hadoop nutzen. Hadoop eignet sich zum Sammeln und Speichern großer Datenmengen in strukturierter und unstrukturierter Form die für Analyseanwendungen bestimmt sind. Jedoch ist Hadoop mit YARN deutlich einfacher zu handhaben, weil die Anwender nicht auf das Ende der einzelnen Verarbeitungen warten müssen. Schließlich können diese sehr zeitintensiv werden, sobald große Datenmengen im Spiel sind.

YARN ging aus einer Kooperation von Facebook, Exponent, Google und Tilde hervor und löst als Verwaltungsprogramm für einzelne Arbeitspakete NPM (Node Package Manager) ab.

Die Vorteile von YARN

  • Lokales Zwischenspeichern, offline Arbeiten
    Hierdurch kann man viel schneller und unkomplizierter arbeiten, da benötigte Ressourcen nicht immer aus dem Internet gezogen werden müssen.
  • Verbesserte Performance
    Aufgrund der Möglichkeit, Programmpakete parallel herunterzuladen, ist es deutlich schneller als seine Vorgänger.
  • Verbesserte Sicherheit
    Es schließt bekannte Sicherheitslücken durch sogenanntes Checksum-Checking. Dabei wird die Unversertheit von Daten mithilfe einer Prüfsumme sichergestellt.
  • Mehr Möglichkeiten
    Zusammen mit Apache Spark kann es für Graphen-, Stream- und Echtzeitverarbeitung eingesetzt werden