Polystrukturierte Daten

Polystrukturierte Daten sind eine relativ neue Kategorie in der Datenwelt. Dabei stehen sie im Gegensatz zu den strukturierten sowie den unstrukturierten Daten.

Strukturierte Daten sind klar erkenn- und zuordenbar. Beispielsweise fallen Rechnungen in diese Kategorie. Immerhin enthalten sie klare Angaben bezüglich Preis und Menge sowie die Information, an wen man die Rechnung stellt.

Hingegen haben unstrukturierte Daten keine klaren Schemata. Deshalb können Computer sie nicht ohne weiteres verarbeiten. Ein praktisches Beispiel hierfür ist die menschliche Sprache, die keinen digitalen Normen folgt.

Polystrukturierte Daten befinden sich in der Mitte dieser beiden Kategorien und können keiner davon klar zugeordnet werden. Typische Formate sind dabei XML oder EDIFACT.

Polystrukturierte Daten: Speicherung auf Vorrat

Häufig sammelt man sie, obwohl zu diesem Zeitpunkt noch nicht bekannt ist, ob oder wofür man sie verwenden kann. In Technikkreisen hört man diesbezüglich oft den Satz: „Today’s noise is tomorrow’s information.“ Frei übersetzt: Was heute irrelevant erscheint, kann morgen schon wichtig sein. Darunter fallen unzählige Status- und Transaktionsdaten, Protokolldaten von Wartungen und ähnliches.

Große Datenmenge und einfacheres Handling

Die größte Herausforderung bei Polystrukturierten Daten ist insbesondere die große Datenmenge. Hierbei gilt es neue Wege in der Verwaltung der Daten zu gehen. Einfache Server können die hierfür notwendige Kapazität kaum aufbringen. Deshalb schaffen neue Systeme wie etwa ein Distributed File System Abhilfe.

Andererseits ist die Speicherung dieser Daten erheblich einfacher als jene von starren strukturierten Daten. Während man diese in eine vorgegebene Struktur aufbereiten musste, belässt man Polystrukurierte Daten oft wie sie sind, um keinen Datenverlust hinnehmen zu müssen.

Diese Begriffe könnten Sie auch interessieren