Data Science

Das Ziel der Data Science (zu Deutsch „Datenwissenschaft“) ist es, aus Daten Wissen zu generieren.

 Prozess – Wie generiert man Wissen aus großen Datenmengen?

Die Basis für den Einsatz von Data Science bildet Big Data, also die großen Datenmengen, die in fast allen Branchen gesammelt werden. Diese Daten werden dann weiterverarbeitet. Man bringt sie in eine Struktur, in der man sie weiter nutzen kann. Im nächsten Schritt exploriert man die Daten dann (explorative Datenanalyse) bzw. analysiert sie. Bei der Datenexploration bewertet man beispielsweise die Qualität der Daten oder erkennt bereits zwischen ihnen vorhandene Zusammenhänge.

Hat man dann einen gewissen Überblick über die Daten, kann man mit Hilfe von Algorithmen und anderen Methoden zu ersten Erkenntnisse gelangen. Das Ergebnis dieser Analyse sind eine große Menge an Zahlen, die man dann erst einmal in visuelle Form bringen muss. Dadurch kann man dann aus den gesammelten Informationen die relevanten Informationen rausfiltern.

Mit Hilfe der Wahrscheinlichkeitstheorie und der Statistik können Unternehmen dann vorausschauende und sinnvolle Strategien entwickeln.

Data Science – Anwendungen

Mit Data Science arbeitet man in der heutigen Zeit in vielen verschiedenen Branchen. Die wichtigsten Techniken sind dabei die Klassifizierung, Similarity Matching und Regression. Diese Methoden skalieren alle außerordentlich gut und sind daher auch auf sehr große Datenbestände anwendbar.

Das Ziel der Klassifizierung ist es, Gruppen bzw. Personen in Klassen einzuordnen. Ein Beispiel dafür kommt aus dem Onlinehandel. Die besagten Daten spielt man in einen passenden Alogrithmus und bildet so möglichst einheitliche Gruppen. Wurden dann schon einige Kunden in Gruppen eingeteilt, kann man mit Hilfe von Klassifizierungsalgorithmen die dahinterliegende Struktur ermitteln. Dadurch kann man dann noch nicht klassifizierte Kunden der entsprechenden Gruppe zuteilen.

Beim Similarity Matching versucht man Gemeinsamkeiten zwischen zwei Personen zu eruieren und so eine Vorhersage für künftige Verhaltensweisen zu formulieren.

Mit der dritten Medthode, der Regressionsanalyse – einem statistischen Analyseverfahren -kann man beispielsweise Prognosemodelle formulieren. Diese kann man dann besonders in Bereichen wie der Gewinnschätzung oder der Berechnung von Produktionskosten einsetzen.