Blockchain und Storage

Was bedeutet Blockchain für die Datenspeicherung?

16.02.2023, München/Zürich, Pure Storage | Autor: Herbert Wieler

Neue Technologien, die kurz vor dem Durchbruch stehen, werfen für Unternehmen fast immer eine wichtige Frage auf: Was wird diese Innovation für die bestehende IT-Infrastruktur bedeuten? Verfügt man über die nötigen Grundlagen, um sie zu unterstützen? Blockchain könnte genau eines dieser Szenarien sein. Diejenigen, die sie nutzen, werden mit Sicherheit mit neuen Auswirkungen auf einen bereits komplexen Schwerpunkt konfrontiert: das Datenmanagement. Klar ist: Für die Verbesserung von Anwendungen, Lieferketten, Verträgen, Transaktionen, Prozessen und vielem mehr ist es von grundlegender Bedeutung, die Daten in die richtige Reihenfolge zu bringen.

Blockchains werden riesige Mengen unveränderlicher Daten generieren – wie diese gespeichert werden, kann über den Erfolg von Blockchain-basierten Anwendungen entscheiden

Pure Storage geht der Frage nach, welche Bedeutung Blockchain für das Thema Storage hat – und umgekehrt.

Blockchain-Datengrundlagen: On-Chain-Daten vs. Off-Chain-Daten

Bei Blockchains handelt es sich um dauerhafte, nicht änderbare digitale Aufzeichnungen von Informationen oder „immutable ledgers”. Unveränderlich bedeutet hierbei, dass man sie nicht löschen oder bearbeiten kann, und Ledger sind Dateien, in denen Transaktionen aufgezeichnet werden. Die Ledger sind über eine Sammlung dezentraler Knotenpunkte verteilt, die von Computern auf der ganzen Welt betrieben werden, und nicht an einem zentralen Ort wie dem Server einer Bank. Da die Aufzeichnungen an so vielen Orten vorhanden sind, gehört die Aufzeichnung nicht nur einer einzigen Einheit.

Theoretisch kann niemand Datensätze löschen oder ändern, sobald sie in der Kette sind. Wenn Daten nicht gelöscht werden können, stapeln sie sich. Blockchains sind von ihrer Konzeption her nicht ideal für die Speicherung großer Datenmengen. Wenn eine Transaktion auf einer Blockchain protokolliert wird, z. B. ein Kauf, wird dieses Ereignis stattdessen auf allen Knotenpunkten protokolliert. Dies wird als „On-Chain“-Daten bezeichnet. Alle anderen Daten, die mit dieser Transaktion in Zusammenhang stehen, beispielsweise ein Bild des Kaufs, eine Beschreibung etc., werden an anderer Stelle gespeichert. Diese Daten werden als „Off-Chain“-Daten bezeichnet.

Wie können Daten durch eine Blockchain fließen?

Angenommen, eine Blockchain zeichnet eine Warensendung auf. Wenn sie den Zoll passiert, wird sie protokolliert – zusammen mit Metadaten über den Inhalt, das Datum, den Bestimmungsort etc. Daraufhin zeichnen IoT-Sensoren im Container während des Transports die Temperatur und die Luftfeuchtigkeit auf und liefern so einen dauerhaften Beweis für den Fall, dass es beim Empfang Qualitätsprobleme gibt. Der Vorteil daran ist, dass keine Partei die Daten „besitzt“, sodass keine Aufzeichnungen gefälscht oder angefochten werden können. Verspätungen sind sofort nachvollziehbar.

Die mit der Sendung verbundenen Daten werden in der Kette protokolliert, aber in einer Datenbank außerhalb der Kette gespeichert. Wie sind die beiden miteinander verbunden? Blockchains eignen sich hervorragend für Smart Contracts. Einige können sogar einfache Berechnungen durchführen, aber es mangelt ihnen oft an fortgeschrittenen Fähigkeiten und Effizienzsteigerungen. Zum Beispiel können sie nicht auf Daten außerhalb der Kette zugreifen. Ohne eine Möglichkeit, sie mit realen Daten und Anwendungen zu verbinden, ist es schwierig, die Vorteile der Blockchain zu nutzen. Wenn man eine Blockchain an einen einzigen Server, eine API oder eine Datenbank koppelt, wird die Blockchain überflüssig, weil man die Zentralisierung wiedereinführt. Wenn Blockchains von vornherein dezentralisiert, anonymisiert und sicher sind, stellt die Art und Weise, wie Daten außerhalb der Kette gespeichert und abgerufen werden, ein einzigartiges Problem dar, für das einige Protokolle speziell entwickelt wurden.

Lösungen für die Blockchain-Datenspeicherung

Für das Problem der Blockchain-Datenspeicherung gibt es nach Erfahrung von Pure Storage einige Lösungsansätze. Die erste sind Oracle-Netzwerke, was nichts mit gleichnamigen Datenbanken zu tun hat. Manchmal kann ein verschlüsselter Hash die Nutzer zu einem Speicher außerhalb der Kette leiten, wo die Daten protokolliert werden. Die Verbindung zwischen den beiden erfolgt über ein Oracle-Netzwerk. Ein Oracle-Netzwerk wie Chainlink ist eine dezentrale Technologie eines Drittanbieters, die Blockchain-Ledger mit der realen Welt und der Datenspeicherung verbindet. Diese stellen die verbindende Schicht dar und bleiben dabei dezentralisiert. Dies ist Lösungen wie Portworx nicht unähnlich, die es containerisierten Anwendungen ermöglichen, zustandsbehaftet zu sein, indem sie diese mit dem zugrundeliegenden Speicher verbinden.

Das kann jedoch nicht jeder beliebige Speicher sein, vor allem, wenn Blockchain-Anwendungen skaliert werden. Um das Versprechen der Blockchain-Geschwindigkeit und -Effizienz zu erfüllen, muss der Speicher schnell und unglaublich skalierbar sein und verschiedene Datentypen konsolidieren können. Datenpipelines können die Herausforderung meistern, dass Blockchains relationale Daten abfragen können. Pipelines verknüpfen und aggregieren Daten aus verschiedenen Datenquellen in einer dezentralen Umgebung und bieten die Parallelisierung, die für eine schnelle und flexible Datenverarbeitung erforderlich ist.

„The Graph“ ist eines der meistgenutzten Blockchain-Protokolle überhaupt. Es organisiert und indiziert Daten und macht sie über Subgraphen leicht zugänglich. Dabei handelt es sich um vertrauenswürdige, grundlegende Systeme, die auf Technologien wie der Kryptografie basieren. Offene API-Aufrufe, so genannte Subgraphen, stehen hinter der weltweiten Koordinierung vieler Blockchain-Projekte, und sie können von jedem erstellt und veröffentlicht werden. Die Frage der Dezentralisierung wird durch ein offenes Netzwerk von Teilnehmern beantwortet, die alles möglich machen und durch Token „incentiviert“ werden.

Ist eine Blockchain ein Ersatz für eine Datenbank?

Ja und nein. Beide befassen sich mit der Speicherung von Daten, aber sie tun dies auf unterschiedliche Weise. Wo die Blockchain sich durch Unveränderlichkeit auszeichnet, mangelt es ihr an Effizienz. Viele Blockchains können ohne Oracle-Netzwerke und -Protokolle, die sie mit dem zugrundeliegenden Datenbankspeicher verbinden, nicht existieren.

Man könnte eine Blockchain als eine Datenbank der nächsten Generation betrachten, da sie Daten speichert, allerdings mit einigen wichtigen Unterschieden:

Blockchains sind verteilt, nicht zentralisiert. Eine Datenbank existiert in der Regel an einem Ort, und ein einziger Administrator kontrolliert, was in sie geschrieben wird. Eine Blockchain besteht aus vielen Knotenpunkten, von denen jeder einem anderen Nutzer gehört.
Blockchains sind unveränderlich. Sobald etwas in der Blockchain gespeichert ist, kann es nicht mehr gelöscht oder geändert werden. Es handelt sich um ein Aufzeichnungssystem, das nur ergänzt, nicht aber bearbeitet oder gelöscht werden kann. Herkömmliche Transaktionsdatenbanken sind darauf ausgelegt, aktualisiert zu werden. Das macht Blockchains für einige Anwendungsfälle ideal, aber nicht für alle.
Blockchains haben viele Verwalter, nicht nur einen. Damit entfällt die Notwendigkeit, einem einzelnen Administrator oder einer einzelnen Person auf der Blockchain zu vertrauen. Die Blockchain selbst ist der Beweis für die Gültigkeit und der Schutz vor Betrug oder Misstrauen.
Blockchains sind für die Speicherung großer Dateien nicht effizient. Die Speicherung von Daten „on-chain“ kann sehr teuer sein. Dies ist kein sehr skalierbarer oder effizienter Weg für mehr als die Ledger-Daten und die zugehörigen Hashes. Die Kosten können pro Terabyte auf der Kette und pro Transaktion in die Höhe schießen, wobei jedes Mal Gebühren anfallen, wenn Unternehmen diese Daten lesen wollen. Die meisten SLAs können es sich nicht leisten, Minuten pro Megabyte zu warten, so dass Blockchains fast von einer Art von Off-Chain-Speicher abhängig sind.

Blockchain ist nach Meinung von Pure Storage eine gute Lösung, wenn Unternehmen ein Aufzeichnungssystem benötigen, das absolute Sicherheit, Gültigkeit und Rückverfolgbarkeit bietet. Für die Speicherung größerer Dateien und zugehöriger Metadaten sind jedoch nach wie vor die zugrundeliegenden Datenbanken entscheidend.

Fazit von Pure Storage: Blockchain braucht dedizierten, modernen Speicher, um zu funktionieren

Blockchain befindet sich noch im Entwicklungsstadium, ist aber bereits eine Herausforderung für die Speicherung. Unstrukturierte, kettenexterne Daten werden exponentiell zunehmen, was die Einbettung besserer Datenspeicherplattformen in diese neuen Strategien nötig macht. Sie werden auch geänderte Datenverwaltungspraktiken, Zugriffsberechtigungen, Datenmodelle und Datenspeicher erfordern, damit sie den Speicher für bestehende Anwendungen nicht kannibalisieren.

„Blockchain wird in der realen Welt keine Branche verändern können, solange das Problem der Datenspeicherung nicht gelöst ist“, heißt es bei JaxEnter.com. Damit Blockchain-Anwendungen ihre SLAs erfüllen können, muss der Off-Chain-Datenspeicher leistungsstark, elastisch und skalierbar sein. Eine einheitliche, schnelle Datei- und Objektspeicherung (Unified Fast File and Object Storage) wird für die Verwaltung von Daten in einem verteilten System dabei entscheidend sein. Bewährte Technologien dieser Art gibt es bereits.