Unstrukturierte Daten

Unstrukturierte Daten sind im Gegensatz zu strukturierten Daten nicht in einer schematischen Gliederung erfasst. Daher passen sie nicht in die Struktur von Datenbanken und Computerprogramme können sie nicht unmittelbar verarbeiten. Dazu zählt beispielsweise die natürliche Sprache, die keinen digital vorgegebenen Normen unterliegt. Ebenfalls in diesen Bereich gehören unter anderem nicht kategorisierte Video- und Sprachaufnahmen oder Fotos.

Bis zu 90 Prozent der Daten ohne Struktur

Laut einer Schätzung des Magazins Computerwoche sind 80 bis 90 Prozent aller digitalen Informationen unstrukturiert. Allerdings enthalten gerade diese Daten einen großen Teil der Informationen, die für Unternehmen relevant sind.

Big Data Techniken wie Data Mining, Textanalysen und Natural Language Processing erkennen Muster in den Daten und interpretieren diese. Anders als bei der zuvor gängigen Praxis, bei der Metadaten manuell markiert wurden, findet die Strukturierung hierbei größtenteils automatisch statt. Algorithmen leiten dabei anhand verschiedener Faktoren den Inhalt der Daten ab und zeichnen diesen aus. Dieser wird dann in Datenbanken weiterverarbeitet.

Unstrukturierte Daten und rechtliche Folgen

Obwohl viele Unternehmen Nachholbedarf haben, was die Strukturierung von unstrukturierten Daten angeht, ist diese immens wichtig. Die Zahl der gespeicherten Daten im Businessbereich steigt stetig. Dadurch wächst allerdings auch die Gefahr, dass man in den Datenmengen erforderliche Dokumente mangels relevanter Auszeichnung nicht findet. Das kann auch rechtliche Folgen haben, beispielsweise wenn man Steuerunterlagen nicht zeitgerecht vorlegt oder die Datenschutzverordnung nicht einhält.