Datenmanagement

Unstrukturierte Daten: Analyse, Speicherung und Potential

14.04.2023, Pure Storage | Autor: Herbert Wieler

Prognosen erwarten, dass unstrukturierte Daten bis zum Jahr 2030 um das Zehnfache ansteigen werden. Viele Unternehmen haben bereits jetzt Schwierigkeiten, diesen „Elefanten“ im Rechenzentrum zu verwalten, geschweige denn, einen Nutzen daraus zu ziehen.

Pure Storage geht der Frage nach: „Wie können sich Unternehmen auf die Flut an unstrukturierten Daten vorbereiten und diese bestmöglich analysieren und speichern?

Unstrukturierte Daten wachsen explosionsartig – und das Wachstum wird sich nicht verlangsamen. Das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten wird bis 2024 jedes Jahr 149 Zettabyte überschreiten. Ein Großteil davon wird unstrukturiert sein, was bekanntermaßen einen enormen Wert, aber auch Herausforderungen und Komplexität mit sich bringt.

Jedes Unternehmen kann von den Anwendungsfällen für unstrukturierte Daten profitieren. Zunächst gilt es jedoch, einen Weg finden, diese in den Griff zu bekommen und die Engstelle anzugehen: Festplattenhardware, auf der diese großen Datenbestände oft gespeichert sind. Was moderne unstrukturierte Daten betrifft, sind viele der herkömmlichen Speicherarchitekturen, Technologien, Best Practices und Prinzipien, die auf strukturierte Daten ausgerichtet sind, nicht anwendbar.

Was sind unstrukturierte Daten?

Im Gegensatz zu strukturierten Daten, wie z. B. Excel-Dateien oder SQL-Datenbanken, handelt es sich bei unstrukturierten Daten um Daten, die nicht ordentlich in formatierte Tabellen passen. Sie liegen im Allgemeinen in Form von Dateien und Objekten vor. Dazu gehören:

Daten aus dem Internet der Dinge (IoT), wie Sensordaten, Ticker-Informationen und mehr
Geräte- und Netzwerkdaten, wie z. B. Telemetrie- und Standortdaten
Text und Dokumente, die zur Verarbeitung und Extraktion von Daten einen Kontext benötigen, z. B. Notizen eines Kundendienstmitarbeiters in einem Callcenter
Visuelle Daten, z. B. Bilder und Videos
Audiodaten
Umfangreiche Daten, wie Wetterdaten und Daten zur Fernerkundung
Daten, die durch Aktivitäten in sozialen Medien generiert werden, einschließlich Benutzeraktivitäten, Stimmungsanalysen von Kommentaren, Anzeigenklicks und demografische Daten

Warum unstrukturierte Daten explodieren

Menschen und Maschinen erzeugen jede Minute Daten. Milliarden von Menschen auf der ganzen Welt interagieren jeden Tag mit verschiedenen digitalen Geräten. Jedes Gerät – und jede darauf ausgeführte Aktivität – generiert riesige Datenmengen. Jede Berührung, jeder Tastenanschlag und jeder Klick ist ein Datenpunkt. Diese Ansammlung von Daten über Milliarden von Menschen auf der ganzen Welt summiert sich jedes Jahr auf Zettabytes (10²¹ Bytes) an Informationen. Das ist die moderne Welt der Daten, und es wird prognostiziert, dass sie bis 2025 mindestens 80 Prozent aller Daten ausmachen werden – einschließlich der Unternehmensdaten.

Wenn Unternehmen sich nicht bereits um die Verwaltung des wachsenden Volumens unstrukturierter Daten kümmern, z. B. eine Taxonomie für jeden Typ und jedes Format erstellen, wird der schiere Umfang dieser Daten zunehmend zu einem unüberwindbaren Engpass.

Herausforderungen bei der Analyse von unstrukturierten Daten

Auch wenn unstrukturierte Daten bedeutende Einblicke mit einem enormen Transformationspotenzial bieten können, bestätigt sich beim Zugriff darauf und ihrer Nutzung das Sprichwort „Ohne Fleiß kein Preis“.

Die Natur unstrukturierter Daten macht es nach Erfahrung von Pure Storage schwierig zu entscheiden, was relevant ist. Zu den häufigen Herausforderungen zählen das Erkennen der Relevanz von Daten, die Unterscheidung zwischen Qualität und Quantität und die Identifizierung kausaler Beziehungen zwischen unstrukturierten Daten. Das Sammeln und Speichern riesiger Datenmengen ohne Ermessensspielraum bedeutet, dass sich viele irrelevante Informationen in dem Mix verfangen und eliminiert werden müssen.

Moderne Techniken des maschinellen Lernens sind viel effektiver bei der Gewinnung von Erkenntnissen aus unstrukturierten Daten, aber diese Modelle sind immer noch nicht in der Lage, kausale Beziehungen zu finden. Dies beeinträchtigt nicht nur das Ergebnis der Analyse unstrukturierter Daten, sondern kann auch dazu führen, dass Geschäftsentscheidungen auf der Grundlage unbewiesener Trends oder fehlerhafter Erkenntnisse getroffen werden.

Herausforderungen bei der Speicherung unstrukturierter Daten

Ein letzter Punkt in der Diskussion um strukturierte und unstrukturierte Daten ist die Frage der Speicherung. Im Allgemeinen werden Unternehmen mit den oben erwähnten Herausforderungen in Bezug auf das Datenvolumen konfrontiert. Dies erfordert eine Scale-Out-Architektur, die nahtlos mit den Daten mitwächst. In den meisten Fällen war festplattenbasierter Speicher die einzige erschwingliche Option für diesen Datenbestand, der Herausforderungen in Bezug auf Geschwindigkeit, Effizienz, Langlebigkeit und Zuverlässigkeit mit sich bringt.

Hinzu kommt noch die Herausforderung der Vielfalt. Unstrukturierte Daten werden hauptsächlich in Datei- und Objektspeichern gespeichert:

Dateispeicher: In diesem Fall werden die Daten in Dateien gespeichert, die sich in Ordnern und Unterordnern befinden. Computer finden die Daten über bestimmte Pfade zu den Dateien. Dies ist zwar eine schnelle Option zum Lesen und Abrufen von Daten, aber der Speicher lässt sich nicht skalieren, ohne weitere Systeme hinzuzufügen. Eine Erhöhung der Kapazität allein reicht nicht aus.
Objektspeicher: Bei der Objektspeicherung schließlich werden die Daten ebenfalls in kleine Stücke aufgeteilt und auf der Hardware verteilt. Der Unterschied besteht hier jedoch darin, dass es keine Hierarchie wie bei der Dateispeicherung gibt. Jedes Datenpaket fungiert als eigenständige Einheit. Daher lässt es sich mit einfachen APIs implementieren und leicht skalieren. Der Nachteil ist, dass einmal geschriebene Objekte nicht mehr geändert werden können.

Das Potenzial für unstrukturierte Daten mit der richtigen Speichertechnologie

Unstrukturierte Daten sind nach Meinung von Pure Storage in vielen Fällen der Schlüssel zum Verständnis und zur Gestaltung der Customer Journey. Das Nutzungsverhalten kann untersucht werden, um bessere Produkte zu entwickeln, die Nutzer besser zu verstehen, ihre Interessen besser zu erkennen und Produkte mit größerer Genauigkeit zu empfehlen. Unternehmen benötigen jedoch moderne Lösungen, die ihre Bemühungen unterstützen.

Aus Kostengründen und in Ermangelung praktikabler, erschwinglicher Alternativen war die plattenbasierte Speicherung bisher der Standard. Dies schränkt die Möglichkeiten ein, mit unstrukturierten Daten umzugehen, wenn diese wachsen, und überlastet das Rechenzentrum, denn:

Festplattenbasierte Speicher benötigt 10-mal mehr Platz im Rechenzentrum als Flash-Speicher.
Er ist nicht energieeffizient, da er im Vergleich zu Flash das 10-fache an Energie verbraucht.
Er ist kostspielig, nicht nur im Hinblick auf die steigenden Energiekosten, sondern auch in Bezug auf die Ressourcen – Elektroschrott, Vollzeitmitarbeiter für die Verwaltung, zusätzliche Racks und mehr.

Mittlerweile ist es möglich, unstrukturierte Daten zu konsolidieren und zu speichern, unabhängig von der Arbeitslast – mit Unified Fast File and Object (UFFO) Storage. Dies kombiniert die Geschwindigkeit von Flash mit der Fähigkeit, jede Architektur auf flexible Weise zu skalieren. Es ist ideal für kritische Workloads, die höchste Geschwindigkeit und Leistung erfordern. Eine moderne UFFO-Lösung ist ideal für große Bestände an unstrukturierten Daten und alltägliche Arbeitslasten. Sie bietet im Idealfall eine erschwingliche, effiziente Flash-Alternative zu Festplatten mit besseren TCO und Energieeffizienz.

data

pure storage

unstrukturierte daten