Datenmanagement

Unstrukturierte Daten: Analyse, Speicherung und Potential

, Pure Storage | Autor: Herbert Wieler

Prognosen erwarten, dass unstrukturierte Daten bis zum Jahr 2030 um das Zehnfache ansteigen werden. Viele Unternehmen haben bereits jetzt Schwierigkeiten, diesen „Elefanten“ im Rechenzentrum zu verwalten, geschweige denn, einen Nutzen daraus zu ziehen.

Pure Storage geht der Frage nach: „Wie können sich Unternehmen auf die Flut an unstrukturierten Daten vorbereiten und diese bestmöglich analysieren und speichern?

Unstrukturierte Daten wachsen explosionsartig – und das Wachstum wird sich nicht verlangsamen. Das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten wird bis 2024 jedes Jahr 149 Zettabyte überschreiten. Ein Großteil davon wird unstrukturiert sein, was bekanntermaßen einen enormen Wert, aber auch Herausforderungen und Komplexität mit sich bringt.

Jedes Unternehmen kann von den Anwendungsfällen für unstrukturierte Daten profitieren. Zunächst gilt es jedoch, einen Weg finden, diese in den Griff zu bekommen und die Engstelle anzugehen: Festplattenhardware, auf der diese großen Datenbestände oft gespeichert sind. Was moderne unstrukturierte Daten betrifft, sind viele der herkömmlichen Speicherarchitekturen, Technologien, Best Practices und Prinzipien, die auf strukturierte Daten ausgerichtet sind, nicht anwendbar.

Was sind unstrukturierte Daten?

Im Gegensatz zu strukturierten Daten, wie z. B. Excel-Dateien oder SQL-Datenbanken, handelt es sich bei unstrukturierten Daten um Daten, die nicht ordentlich in formatierte Tabellen passen. Sie liegen im Allgemeinen in Form von Dateien und Objekten vor. Dazu gehören:

Warum unstrukturierte Daten explodieren

Menschen und Maschinen erzeugen jede Minute Daten. Milliarden von Menschen auf der ganzen Welt interagieren jeden Tag mit verschiedenen digitalen Geräten. Jedes Gerät – und jede darauf ausgeführte Aktivität – generiert riesige Datenmengen. Jede Berührung, jeder Tastenanschlag und jeder Klick ist ein Datenpunkt. Diese Ansammlung von Daten über Milliarden von Menschen auf der ganzen Welt summiert sich jedes Jahr auf Zettabytes (1021 Bytes) an Informationen. Das ist die moderne Welt der Daten, und es wird prognostiziert, dass sie bis 2025 mindestens 80 Prozent aller Daten ausmachen werden – einschließlich der Unternehmensdaten.

Wenn Unternehmen sich nicht bereits um die Verwaltung des wachsenden Volumens unstrukturierter Daten kümmern, z. B. eine Taxonomie für jeden Typ und jedes Format erstellen, wird der schiere Umfang dieser Daten zunehmend zu einem unüberwindbaren Engpass.

Herausforderungen bei der Analyse von unstrukturierten Daten

Auch wenn unstrukturierte Daten bedeutende Einblicke mit einem enormen Transformationspotenzial bieten können, bestätigt sich beim Zugriff darauf und ihrer Nutzung das Sprichwort „Ohne Fleiß kein Preis“.

Die Natur unstrukturierter Daten macht es nach Erfahrung von Pure Storage schwierig zu entscheiden, was relevant ist. Zu den häufigen Herausforderungen zählen das Erkennen der Relevanz von Daten, die Unterscheidung zwischen Qualität und Quantität und die Identifizierung kausaler Beziehungen zwischen unstrukturierten Daten. Das Sammeln und Speichern riesiger Datenmengen ohne Ermessensspielraum bedeutet, dass sich viele irrelevante Informationen in dem Mix verfangen und eliminiert werden müssen.

Moderne Techniken des maschinellen Lernens sind viel effektiver bei der Gewinnung von Erkenntnissen aus unstrukturierten Daten, aber diese Modelle sind immer noch nicht in der Lage, kausale Beziehungen zu finden. Dies beeinträchtigt nicht nur das Ergebnis der Analyse unstrukturierter Daten, sondern kann auch dazu führen, dass Geschäftsentscheidungen auf der Grundlage unbewiesener Trends oder fehlerhafter Erkenntnisse getroffen werden.

Herausforderungen bei der Speicherung unstrukturierter Daten

Ein letzter Punkt in der Diskussion um strukturierte und unstrukturierte Daten ist die Frage der Speicherung. Im Allgemeinen werden Unternehmen mit den oben erwähnten Herausforderungen in Bezug auf das Datenvolumen konfrontiert. Dies erfordert eine Scale-Out-Architektur, die nahtlos mit den Daten mitwächst. In den meisten Fällen war festplattenbasierter Speicher die einzige erschwingliche Option für diesen Datenbestand, der Herausforderungen in Bezug auf Geschwindigkeit, Effizienz, Langlebigkeit und Zuverlässigkeit mit sich bringt.

Hinzu kommt noch die Herausforderung der Vielfalt. Unstrukturierte Daten werden hauptsächlich in Datei- und Objektspeichern gespeichert:

Das Potenzial für unstrukturierte Daten mit der richtigen Speichertechnologie

Unstrukturierte Daten sind nach Meinung von Pure Storage in vielen Fällen der Schlüssel zum Verständnis und zur Gestaltung der Customer Journey. Das Nutzungsverhalten kann untersucht werden, um bessere Produkte zu entwickeln, die Nutzer besser zu verstehen, ihre Interessen besser zu erkennen und Produkte mit größerer Genauigkeit zu empfehlen. Unternehmen benötigen jedoch moderne Lösungen, die ihre Bemühungen unterstützen.

Aus Kostengründen und in Ermangelung praktikabler, erschwinglicher Alternativen war die plattenbasierte Speicherung bisher der Standard. Dies schränkt die Möglichkeiten ein, mit unstrukturierten Daten umzugehen, wenn diese wachsen, und überlastet das Rechenzentrum, denn:

Mittlerweile ist es möglich, unstrukturierte Daten zu konsolidieren und zu speichern, unabhängig von der Arbeitslast – mit Unified Fast File and Object (UFFO) Storage. Dies kombiniert die Geschwindigkeit von Flash mit der Fähigkeit, jede Architektur auf flexible Weise zu skalieren. Es ist ideal für kritische Workloads, die höchste Geschwindigkeit und Leistung erfordern. Eine moderne UFFO-Lösung ist ideal für große Bestände an unstrukturierten Daten und alltägliche Arbeitslasten. Sie bietet im Idealfall eine erschwingliche, effiziente Flash-Alternative zu Festplatten mit besseren TCO und Energieeffizienz.