Globaler IT-Ausfall
CrowdStrike-Vorfall zeigt mangelnde Resilienz bei kritischen IT-Infrastrukturen
Von Peter Machat, Senior Director EMEA Central bei Armis
Das Software-Update des Cybersicherheitsunternehmens CrowdStrike verursachte einen massiven IT-Ausfall, der weltweit Millionen von Windows-Systeme betraf. Dieses fehlerhafte Update führte zu weitreichendem Chaos, indem es Geräte zum Absturz brachte und den berüchtigten „Bluescreen-Fehler“ (BSOD) auslöste. Besonders betroffen waren kritische Sektoren wie das Gesundheitswesen, das Bankwesen und die Luftfahrt, wo es zu erheblichen Betriebsstörungen kam.
Laut Microsoft waren weltweit etwa 8,5 Millionen Windows-Geräte von dem Vorfall betroffen. Die Auswirkungen waren besonders in den USA und Europa spürbar, wo über 2000 Flüge annulliert wurden, darunter auch viele in Deutschland, was zu erheblichen Verspätungen an großen Flughäfen wie Frankfurt und München führte. Patientenakten in Krankenhäusern waren unzugänglich, und Banken hatten mit Betriebsstörungen zu kämpfen. CrowdStrike bestätigte, dass das Problem durch ein Inhaltsupdate für Windows-Hosts verursacht wurde und kein Cyberangriff vorlag. Das Unternehmen konnte den Fehler schnell beheben, doch der Vorfall verdeutlicht die Notwendigkeit effektiver Mechanismen zur Reaktion auf solche Zwischenfälle.
Resilienz von IT-Umgebungen
Die Bedeutung umfassender Strategien zur Reaktion auf Vorfälle in IT-Umgebungen kann nicht genug betont werden. Unternehmen müssen in der Lage sein, betroffene Systeme schnell zu identifizieren, zu isolieren und zu reparieren, um Ausfallzeiten zu minimieren und die Kontinuität des Betriebs sicherzustellen. Der Vorfall dient als Weckruf für die Cybersicherheits-Community und unterstreicht die Wichtigkeit eines umfassenden Asset-Managements, automatisierter Abhilfemaßnahmen und kontinuierlicher Überwachung.
Um zukünftige Störungen zu vermeiden, sind folgende präventive Strategien wichtig:
- Identifizierung und Priorisierung kritischer Assets: Vollständige Transparenz aller Assets und ihrer Kommunikationswege ist essentiell. Nutzen Sie Telemetriedaten und KI-gestützte Erkenntnisse, um die für die Betriebskontinuität und die öffentliche Sicherheit kritischen Assets zu priorisieren.
- Implementierung von Rollback- und Backup-Mechanismen: Führen Sie umfassende Backups durch und stellen Sie sicher, dass Systeme zu einem letzten bekannten guten Zustand zurückkehren können. Regelmäßige Aktualisierung und gründliche Tests der Sicherungsprotokolle sind notwendig.
- Automatisierung und Zuweisung von Verantwortlichkeiten: Wiederherstellungsprozesse sollten nach Möglichkeit automatisiert werden, um die Effizienz zu steigern. Verwenden Sie eingebettete Workflows zur Zuweisung von Verantwortlichkeiten und zur Verfolgung des Fortschritts.
- Verbesserung der Erkennungs- und Reaktionsfähigkeiten: Diversifizieren Sie die Erkennungsmechanismen in IT- und OT-Umgebungen. Nutzen Sie sowohl passive Überwachung als auch aktive Abfragen zur Erkennung von Richtlinienverletzungen und anomalem Verhalten. Regelmäßige Aktualisierung und Tests der Reaktionspläne sind entscheidend.
- Förderung der Zusammenarbeit innerhalb der Industrie: Informationsaustausch und kooperative Strategien innerhalb und zwischen den Branchen sind entscheidend, um neuen Bedrohungen einen Schritt voraus zu sein und Best Practices für die Cybersicherheit zu entwickeln.
Unternehmen benötigen robuste Lösungen, um Vorfälle effektiv zu bewältigen und sicherzustellen, dass die gesamte Angriffsfläche in Echtzeit verteidigt und verwaltet wird. Hochentwickelte Plattformen wie die von Armis bieten die notwendigen Werkzeuge, um betroffene Geräte schnell zu identifizieren, zu priorisieren und zu bereinigen, wodurch Betriebsunterbrechungen minimiert werden. Es ist entscheidend, dass Unternehmen ihre Widerstandsfähigkeit gegenüber ähnlichen Vorfällen stärken und gleichzeitig die Sicherheit und betriebliche Kontinuität aufrechterhalten. Dies erfordert kontinuierliche Sichtbarkeit, Schutz und Verwaltung aller kritischen Ressourcen und Assets.