Cloud Data Management
Systemausfälle mit konsequenter Data Availability vorbeugen
Rubrik erläutert Konzept für stets zugängliche Daten
Unabhängig davon, ob ein IT-System selbst ausfällt oder ob es ein externes Problem wie einen Stromausfall oder eine Naturkatastrophe gibt, jedes Unternehmen hat oder wird im Laufe der Zeit einen Systemausfall erleben. Mit der Entwicklung der Technologie haben sich auch die Mechanismen entwickelt, mit denen diese Ausfälle bewältigt und behoben werden können.
Rubrik hat eine Lösung für konsequente Data Availability entwickelt, um sich gegen diese Ausfälle zu schützen und sicherzustellen, dass Daten jederzeit zugänglich und wiederherstellbar sind. Die fehlertolerante Technologie wurde in einem früheren Beitrag über Löschcodierung behandelt.
Die Experten für Cloud Data Management (CDM) erläutern, wie Unternehmen verschiedene Fehlerszenarien angehen können:
Entwicklung der Ausfallsicherheit
Bei Backup- und Wiederherstellungslösungen sollte es eine progressive Ausfallsicherheit geben, die von der Datenspeicherung über den gesamten Stack bis hin zu den Diensten reicht, die diese Daten verwalten. Da diese Lösungen oft die letzte Verteidigungslinie gegen eine Katastrophe wie einen Ransomware-Angriff sind, ist es von größter Wichtigkeit, dass die Daten sicher und geschützt sind.
Rubrik CDM wurde mit einem unveränderlichen Dateisystem namens Atlas entwickelt. Unveränderlich bedeutet, dass einmal geschriebene Daten von den Clients im Netzwerk nicht gelesen, verändert oder gelöscht werden können. Ein weiterer wichtiger Aspekt von Atlas ist die Art und Weise, wie es Daten auf die Festplatte schreibt und mit Fehlern umgeht. Dies wird als Löschcodierung bezeichnet. Die Löschcodierung ist eine Methode zur Speicherung redundanter Daten, um sie nach Speicherausfällen wiederherstellbar zu machen.
Es gibt verschiedene Möglichkeiten, Löschcodierung zu implementieren. Eine Option ist die Reed-Solomon-Methode, die Rubrik verwendet. Zusammenfassend lässt sich sagen, dass die Verwendung dieser Methode der Löschcodierung es ermöglicht, einen Mittelweg einzuschlagen, wenn es um den Kompromiss zwischen Speicher-Overhead (Speicherung der redundanten Datenbits zur Wiederherstellung) und Verfügbarkeit geht. Dadurch erhalten Nutzer das Beste aus beiden Welten und es steht mehr Speicherplatz zur Sicherung der Daten zur Verfügung. Auf diese Weise sinken die Gesamtbetriebskosten und die Toleranz des Systems gegenüber Plattenausfällen wird gewährleistet.
Apropos Hardware-Ausfälle: Was ist, wenn etwas noch Schlimmeres passiert? Rubrik CDM wird in der Regel in einem oder mehreren Clustern eingesetzt wird, wobei jedes Cluster aus mindestens vier Knoten besteht. Jeder Knoten setzt sich aus Speicher-, Netzwerk- und Rechenressourcen zusammen.
Wenn das System Daten aus einer Umgebung aufnimmt, schreibt Atlas die Daten und Metadaten mit Hilfe einer Löschcodierung über Platten, Knoten und Cluster hinweg. Wenn Festplatten ausfallen, und das wird auch in Zukunft der Fall sein, ermöglichen Atlas und die Löschcodierung die Verfügbarkeit und Selbstheilung der Daten. Unabhängig davon, ob eine Platte ausfällt oder mehrere Platten innerhalb eines Knotens oder in einem Cluster, treten automatische Selbstheilungsmechanismen in Kraft, die die Datensätze auf den verfügbaren Platten auf intelligente Weise neu aufbauen. Selbst bevor ausgefallene Platten ersetzt werden, ist der Cluster also tolerant gegenüber zusätzlichen Ausfällen, sofern genügend Kapazität vorhanden ist. Wenn dann die ausgefallenen Platten ersetzt werden, wird diese Kapazität automatisch wieder dem System hinzugefügt, und die Daten werden neu ausbalanciert.
Große, verteilte Systeme stehen vor dem Problem, dass die Wahrscheinlichkeit mehrerer, gleichzeitiger Knotenausfälle tatsächlich mit der Anzahl der Knoten steigt. Eine Möglichkeit, die Wahrscheinlichkeit solcher Ausfälle zu verringern, besteht darin, die Selbstheilungszeit zu reduzieren.
Rubrik CDM kann sich typischerweise in weniger als einer Stunde selbst heilen. Für eine zweite Methode wurde mit Rubrik CDM 5.1 eine neue Architekturerweiterung namens Copysets eingeführt, bei der es sich um Sammlungen von Metadaten handelt, die auf intelligente Weise über die Knoten verteilt sind. Die Verwendung von Copysets führt zu einer etwa 50-fachen Reduzierung des Risikos von Datenverlusten (etwa 1 zu 1 Milliarde), wenn in einer großen Umgebung zwei Knoten gleichzeitig verloren gehen, im Vergleich zu Clustern ohne Copysets.
Zusätzlich hat Rubrik das System viele der zuvor erwähnten Mechanismen orchestriert. Rubrik CDM wird von einer Komponente namens Cerebro angetrieben, einem verteilten, intelligenten System, das die Zeitplanung und die Datenbewegung innerhalb des Clusters steuert. Die Datenaufnahme, der Lebenszyklus, die Aufgabenplanung und die Zusammensetzung der Metadaten werden alle von Cerebro gesteuert, daher ist es wichtig, dass es so verfügbar und widerstandsfähig wie möglich ist. Bei katastrophalen Ausfällen, wie dem Verlust eines gesamten Rechenzentrums, ist es von entscheidender Bedeutung, Daten an verschiedenen geografischen Standorten replizieren zu lassen.
Es ist auch entscheidend, dass die Intelligenz und die Orchestrierung eingebaut sind, um eine effiziente Rückkehr zum Betrieb zu ermöglichen. Cerebro sorgt für die Datenreplikation an sekundäre Standorte wie einen DR-Standort oder eine Public Cloud. Mit robusten SLA-Domains ist Cerebro die entscheidende Komponente im Hintergrund, die sicherstellt, dass die Daten dort sind, wo sie sein müssen, wann sie sein müssen, und dass sie stabil genug sind, um die zugewiesenen Richtlinien zu erfüllen.
Schlussfolgerung
Ein leistungsfähiges System für Cloud Data Management, das stetige Data Availability sicherstellt, hat mehrere Schlüsselkomponenten, die den Nutzern bei der Behebung von Ausfällen helfen. Das unveränderliche Dateisystem Atlas, gepaart mit der Intelligenz von Cerebro, reduziert das Risiko eines Daten- oder Dienstverlusts bei Ausfällen drastisch. Verteilte Systeme können gebaut werden können, um viele dieser Herausforderungen zu meistern. Ein modernes CDM bietet die optimale Progression der Ausfallsicherheit, Risikoreduzierung und Selbstheilung. Administratoren haben die Gewissheit, dass ihre letzte Verteidigungslinie im Katastrophenfall zum gegebenen Zeitpunkt bereitsteht.