Text Mining

Unter Text Mining (auch Text Data Mining oder Textual Data Mining) versteht man Methoden zur Verarbeitung und Analyse von Textdaten. Ziel ist es, mithilfe von linguistischen und statistischen Verfahren unstrukturierte Daten auszuwerten und Strukturen zu erkennen. Oftmals steht das Text Mining vor großen Herausforderungen, da Texte in natürlicher Sprache häufig inkonsistent sind. Sie enthalten also beispielsweise umgangssprachliche Ausdrücke oder Fachsprache, Sarkasmus und Doppeldeutigkeiten.

Methoden

Im Gegensatz zur Analyse von strukturierten Daten beim Data Mining analysiert man beim Text Mining unstrukturierte Daten. Die Daten muss man dann als erstes aufbereiten, um eine weitere Verarbeitung möglich zu machen. Im nächsten Schritt analysiert man die Daten mittels verschiedener Verfahren wie Abhängigkeitsanalysen, Segmentierung oder Klassifikation.

Häufig verwendet man zu Verarbeitung die Programmiersprachen Python und R.

Text Mining – Anwendungsgebiete

Ein wichtiger Anwendungsbereich ist das Webmining, oder auch Web Content Mining. Beim Webmining werden Informationen (fast) automatisch aus dem Internet extrahiert. Anwendungen von denen vor allem Unternehmen profitieren können sind beispielsweise das E-Mail Monitoring, Konkurrenz- und Marktanalysen.