Incident Management

Fünf Maßnahmen, um Lücken im Incident Management zu schließen

Fünf Maßnahmen, um Lücken im Incident Management zu schließen

Von Débora Cambé, Product Marketing Managerin bei PagerDuty

Das Lernen aus Vorfällen sowie eine gründliche Planung sind die besten Möglichkeiten, um die Geschäftskontinuität zu unterstützen, schneller zu reagieren und intelligenter zu arbeiten.

Débora Cambé, Product Marketing Managerin bei PagerDuty

Unsere moderne Welt basiert auf Software. Aber erst nach einem schweren globalen Ausfall am 19. Juli wurde vielen klar, wie groß der Blast-Radius sein kann – also die Reichweite, die eine fehlerhafte Konfigurationsänderung oder ein Problem verursachen kann. Der Vorfall, der als der größte IT-Ausfall in der Geschichte bezeichnet wurde, ging auf ein mangelhaftes Software-Update zurück. Er reichte aus, um Flugzeugstarts zu verhindern, Notdienste und den öffentlichen Verkehr zu beeinträchtigen und sogar einen Fernsehsender vom Netz zu nehmen.

Laut einer Umfrage des BSI litten 62 Prozent der betroffenen Unternehmen unter dem Ausfall der eigenen IT-Systeme . Knapp die Hälfte dieser Unternehmen musste vorübergehend den Betrieb einstellen. Die Betriebsunterbrechung dauerte im Durchschnitt zehn Stunden.

Wie groß der finanzielle Schaden solcher Unterbrechungen für ein Unternehmen ist, hängt von vielen Faktoren ab. Statista befragte 2022 österreichische Unternehmen nach der geschätzten Höhe des finanziellen Schadens bei einem einwöchigen Ausfall der IT-Systeme. Kleinere Unternehmen mit bis zu 99 Mitarbeitern schätzten den finanziellen Schaden auf durchschnittlich 750.000 Euro. Größere Unternehmen mit mehr als 250 Mitarbeitern schätzten den potenziellen Verlust auf 2,6 Millionen Euro.

In einem Punkt herrschte unter den Befragten Einigkeit: Vorfälle lassen sich nicht vollständig verhindern. Allerdings können Risiken minimiert und die Auswirkungen abgefedert werden. Widerstandsfähigere Abläufe und resiliente Teams helfen einer Organisation, das Risiko zu minimieren bzw. sich schneller von Störungen zu erholen.

Keine Zeit für Stillstand

Der weltweite IT-Ausfall vom 19. Juli ist ein extremes Beispiel dafür, was passieren kann, wenn digitale Systeme ausfallen. Operative Widerstandsfähigkeit beginnt jedoch bereits mit der effizienten Bewältigung alltäglicher Serviceunterbrechungen. Strategien mit einem proaktiven Ansatz im Incident-Management helfen Organisationen dabei, besser auf Ausfälle vorbereitet zu sein.

1. Notfallplan und automatisierte Abläufe

Ein Notfallplan ist ein entscheidender erster Schritt. Die Festlegung klarer Rollen (Einsatzleiter, Protokollführer, Verbindungsmann usw.) und Aufgaben innerhalb eines Einsatzteams definiert Verantwortlichkeiten. Automatisierte Vorfall-Workflows stellen sicher, dass die Verantwortlichen zur richtigen Zeit involviert und kritische Aufgaben zeitnah ausgeführt werden.

2. Einsatz von KI und Automatisierung

KI unterstützt die IT-Teams, indem sie nur die kritischsten Meldungen anzeigt und die Triage beschleunigt. Die Automatisierung von Diagnosen und Maßnahmen verkürzt die Zeit, die für die Behebung eines Vorfalls benötigt wird. Generative KI (GenAI) kann diesen Effekt verstärken: Teams, die in ChatOps-Tools zusammenarbeiten, können mithilfe eines Chatbots schnell mehr Kontext zum Vorfall und proaktive Vorschläge für geeignete Maßnahmen in jeder Phase des Incident-Life-Cycles erhalten. Die Auslagerung von Aufgaben an eine KI entlastet die Einsatzkräfte mental und ermöglicht es ihnen, sich auf höherwertige Aktivitäten zu konzentrieren.

3. Automatisierung beschleunigen und skalieren

Der Einsatz generativer KI kann dazu beitragen, die Entwicklung und den Einsatz von Automatisierung im gesamten Prozess des Vorfallsmanagements zu demokratisieren. Teammitglieder können Anweisungen aus Gesprächen in vorgeschlagene Runbook-Automatisierung übersetzen oder vorprogrammierte Aufforderungen auf Basis gängiger Kategorien nutzen. Das bedeutet, dass auch weniger erfahrene oder technisch weniger versierte Teams Runbooks für automatisierte Aktionen entwickeln können. Wie immer sollten Menschen in den Prozess eingebunden bleiben, um die von der KI generierten Anweisungen zu überprüfen und zu bearbeiten, bevor eine neue Arbeitsdefinition initiiert wird.

4. Proaktive Kommunikation

Die regelmäßige Information interner und externer Interessengruppen über den aktuellen Stand stellt sicher, dass alle Teams die für eine schnellere Lösung benötigte Unterstützung erhalten. Statusseiten sind eine hervorragende Möglichkeit, den Echtzeit-Status eines Vorfalls visuell darzustellen und so Kunden oder Lieferanten auf dem Laufenden zu halten. Das schützt den Ruf des Unternehmens und stärkt das Vertrauen in die Marke.

5. Kontinuierliche Verbesserung, um zu lernen und Incidents zu vermeiden

Unternehmen mit einem ausgereiften Ansatz für digitale Abläufe und einer gut durchdachten und gut geplanten Reaktion auf Vorfälle werden immer versuchen, aus früheren Incidents zu lernen. Wissensdatenbanken und KI-gestützte Postmortems helfen den IT-Teams, sich weiterzuentwickeln und den Incident-Zyklus wirklich zu schließen. Dies ist der beste Weg, um die Widerstandsfähigkeit zu stärken und die Prozesse weiter zu verbessern.

Fazit

Vorfälle sind unvermeidlich. Schwerwiegende direkte und indirekte Schäden, Kundenabwanderung oder das Burnout von Mitarbeitern können verhindert werden. Eine gründliche Planung und das Lernen aus Vorfällen sind die besten Möglichkeiten für Geschäftskontinuität. KI-gestützte Prozesse und Automatisierung stellen sicher, dass Unternehmen schneller reagieren und effizienter arbeiten können.