Data Mining

Data Mining ist die Bezeichnung für computergestützte Prozesse, bei denen man große Datenbestände mit statistischen Methoden auswertet. Dabei beabsichtigt man vor allem, neue Muster und Zusammenhänge aus den Daten herauszulesen. Data Mining ist ein wichtiger Bestandteil von Big Data Analysen.

Während traditionelle statistische Verfahren feststehende Hypothesen überprüfen, kann Data Mining automatisch eigenständige Hypothesen aus den Daten aufstellen. Auch kann man damit Beziehungen erkennen, die bisher unbekannt waren. Darüber setzt man es häufig ein, um Ausreißer in Daten und zusammenhängende Gruppen zu erkennen oder statistische Zusammenhänge zwischen unterschiedlichen Attributen zu modellieren.

Data Mining Spezialgebiete

Neben den allgemeinen Data-Mining-Methoden gibt es auch Spezialisierungen.

Text Mining ist die Analyse von großen Textbeständen. Dabei ist beispielsweise die automatische Erkennung von Plagiaten ein häufiges Einsatzgebiet. Das Projekt „Wörter des Tages“ der Universität Leipzig setzt ebenfalls auf Text Mining und wertet aus, welche Wörter im Internet an einem Tag ungewöhnlich häufig gebraucht werden. Daraus lassen sich Trends im Tagesgeschehen ableiten.

Web Mining nimmt Daten aus dem Internet als Ausgangsbasis für Analysen her. Jedoch geht es im Gegensatz zum Text Mining nicht nur um die verwendeten Worte, sondern auch um Beziehungen (zB Links) der Webseiten zueinander.

Zeitreihenanalyse nennt man das Verfahren, bei dem zeitliche Gesichtspunkte im Vordergrund stehen. Dabei prüft man Veränderungen in den Daten auch in Hinsicht auf temporäre Einflussfaktoren. Infolge dessen kann man zeitlich eingeschränkte Prognosen treffen. Ein typisches Anwendungsbeispiel hierfür ist der Wetterbericht.