Automatisierung

Zeitgewinn durch Automatisierung beim Incident Response Management

10.10.2023, PagerDuty | Autor: Mandi Walls

Von Mandi Walls, DevOps advocate bei PagerDuty

IT-Experten sind eine wertvolle Ressource. Höchste Zeit also, dass diese ihre Zeit nicht länger mit unnötigem Arbeitsaufwand und Tickets verschwenden.

ITOps-Teams sind heute die Schaltzentrale jedes modernen Unternehmens: Sie verwalten und überwachen die digitale Infrastruktur, die für den Geschäftserfolg entscheidend ist. Doch die IT-Umgebung eines Unternehmens ist heute eine komplexe Mischung aus traditionellen und modernen Cloud-basierten Systemen verschiedener Anbieter. IT-Incidents sind daher unvermeidlich, und wenn sie auftreten, ist es stets ein Wettlauf gegen die Zeit, sie zu beheben. Um ITOps-Teams zu entlasten, ist es sinnvoll, mehr Automatisierung im sogenannten Incident Response Management einzusetzen.

Diese Aufgabe an sich ist schon schwierig genug zu bewältigen, vor allem, wenn die Teams unter hohem Druck stehen, Probleme möglichst schnell und effizient zu beheben. Doch die Arbeit der ITOps wird durch die zunehmende Arbeitsbelastung der Teams und die Warteschlangen für Tickets – die wiederum zusätzliche Kosten, Verzögerungen und Risiken mit sich bringen – noch schwieriger. All dies verschwendet wertvolle Zeit der IT-Spezialisten, die ohnehin schon knapp bemessen ist.

DigitalOps unter Druck

Angesichts der anhaltenden wirtschaftlichen Unsicherheit und des Gegenwinds, dem sich Unternehmen ausgesetzt sehen, müssen diese ihre Teams befähigen, Incidents effektiver zu bewältigen. Zum einen, weil es sich auf die Markenwahrnehmung und den Gewinn auswirken kann. Zum anderen aber auch, weil Unternehmen es sich nicht leisten können, die Zeit ihrer IT-Mitarbeiter zu vergeuden. Sie müssen ihre Teams bei Laune und produktiv halten.

Um zu gewährleisten, dass wertvolle Arbeitskräfte nicht zu viele Überstunden anhäufen und eine Überlastung riskieren, sollten manuelle Aufgaben automatisiert werden. Es ist wichtig, dass falsche oder unwichtige Alerts und Warnmeldungen zu reduzieren sowie ein gewisses Maß an Self-Service zu ermöglichen, um Fehler durch standardisierte Prozesse zu reduzieren.

Überlastung der ITOps-Teams

Treten Betriebsausfälle oder andere Unterbrechungen in der IT auf, dann ist die Arbeit der Ingenieure sehr zeitintensiv. Dies hindert Teams daran, an hochwertigen und anspruchsvollen Aufgaben zu arbeiten, was zu einem Teufelskreis aus wiederkehrenden Incidents und permanenter Zeitverschwendung führt. Ein Bereich, der oft mit dieser Art von Mühsal in Verbindung gebracht wird, ist das Site Reliability Engineering (SRE), die Anwendung von Software-Engineering-Praktiken, um Zuverlässigkeit und Skalierbarkeit zu verbessern. Die Spirale an wiederkehrenden Incidents steht diesen Bemühungen jedoch im Weg, denn die Arbeit ist manuell, reaktiv und ohne strategischen Mehrwert. Kurzum: Es ist die falsche Art von Arbeit für hochqualifizierte IT-Fachkräfte. Statt repetitiver Arbeit ohne nachhaltigen Wert, die immer umfangreicher wird und immer mehr Zeit in Anspruch nimmt, müssen Unternehmen sicherstellen, dass ihre Teams in der Lage sind, strategische, kreative und wertbeständige Entwicklungsarbeit zu leisten.

Der Aufwand an sich lässt sich allerdings nicht vollständig eliminieren, denn Veränderungen sind die einzige Konstante in modernen ITOps. Sie werden immer ein gewisses Maß an Arbeit erfordern. Ziel der Unternehmen muss es daher sein, den Zeitaufwand für ITOps so gering wie möglich zu halten. Aus diesem Grund sollten vor allem jene Schlüsselbereiche in den Mittelpunkt gestellt werden, die noch nicht automatisiert wurden. Dazu gehören z. B. Schema-Updates und Rollbacks, Änderungen von Speicherplatzkontingenten (Quotas), Netzwerk- und DNS-Konfigurationen, das Hinzufügen von Benutzern sowie Service Failover. Zudem sind die Teams dann auch in der Lage, das Incident Response Management bei manuellen Eingriffen wie Neustarts, Problem-Analysen, Leistungsüberprüfungen und Änderungen von Konfigurationseinstellungen zu optimieren.

Bleiben diese Segmente jedoch unkontrolliert, dann kann der Aufwand für das Incident Response Management schnell gefährliche Ausmaße annehmen und bei den Teammitgliedern zu Burnout, höheren Fehlerquoten, Enttäuschung und mangelnder beruflicher Weiterentwicklung führen. Auf Unternehmensebene kann dies zu verringerter Kapazität der IT-Teams, höheren Betriebskosten, einer ansteigende Mitarbeiterfluktuation sowie einer Beeinträchtigung strategischer Initiativen zur Folge haben Die größte Gefahr besteht jedoch dann, wenn die Arbeitsbelastung so stark zunimmt, dass einfach nicht mehr genügend Fachkräfte zur Verfügung stehen, um sie zu bewältigen. Dann sind strategische Maßnahmen erforderlich, um den Arbeitsaufwand durch externe/interne Automatisierung zu minimieren oder die Dienste so zu verbessern, dass sie nicht mehr manuell gewartet werden müssen.

Weshalb sind Tickets ein Hindernis?

Die übermäßige Verwendung von Tickets zur Verwaltung von operativen Aufgaben ist ein weiterer Grund für die Zeitverschwendung und die daraus resultierende Frustration für ITOps-Teams. Tickets sind für die meisten Teams zum De-facto-Standard für das Management von IT-Vorfällen geworden. Doch das Anwachsen der Anzahl der unbearbeiteten Aufgaben (Ticket Queues), richten manchmal mehr Schaden an als sie nützen:

Tickets verursachen Kommunikationsprobleme: Anfragen werden häufig missverstanden, oft weil wichtige Kontextinformationen im Ticket fehlen. Der Anfragende könnte z.B. die falsche Anfrage stellen oder deren Auswirkungen nicht vollständig erfassen. Manchmal ändern sich auch die Anfrageparameter, während sich das Ticket noch unbearbeitet ist, ohne dass dies beiden Parteien bewusst ist.
Engpässe: Ticket-Warteschlangen werden häufig eingesetzt, wenn spezialisierte Teams, die Anfragen bearbeiten, unterbesetzt sind. Die Warteschlangen werden mit Anfragen “gefüttert”, können aber nicht schnell genug bearbeitet werden, wodurch sich die Antwortzeiten verlängern. Da die Antragsteller die Rückmeldung über den Bearbeitungsstand erst mit Verzögerung erhalten, sind sie sich des Ausmaßes der negativen Auswirkungen nicht bewusst. Und wenn die Warteschlangen immer länger werden, werden die zuständigen Teams instinktiv darauf achten, ihre eigenen Kapazitäten zu schützen.
Arbeiten in Silos: Ticket-Warteschlangen dienen oft als Puffer, der es den Teams ermöglicht, weiterhin getrennt voneinander zu arbeiten. Dabei steht der Schutz der Teams und deren Kapazitäten im Vordergrund und nicht die Erfüllung der Anforderungen des Unternehmens. Eine Verstärkung dieser in Silos aufgeteilten Arbeitsweise verschärft das Problem zunehmend.
Snowflakes: Dies beschreibt etwas, das technisch gesehen zwar korrekt sein mag, aber ein einmaliger Vorgang ist, der nicht reproduziert werden kann, wie z. B. ein manuell aktualisierter Server. Tickets fördern diese ineffiziente Arbeitsweise, weil die Teams von einer scheinbar isolierten Anfrage zur nächsten springen.
Kontext: Bei jeder Art von Wissensarbeit ist der Kontext wichtig, also das Verständnis dafür, wo und wie jeder Arbeitsschritt in das Gesamtbild passt. Die Aufteilung in einzelne Tickets erschwert dies und verhindert zudem den Blick auf den gesamten Mehrwert, den die Teams leisten können.
Mehrkosten für das Ticket-Management: Die Einrichtung von Warteschlangen, die Festlegung von Regeln und die Pflege des Ticketsystems selbst erfordern zusätzlichen Zeit- und Arbeitsaufwand, der besser für die strategische Wertschöpfung des Unternehmens genutzt werden könnte. Ticket-Warteschlangen können somit zur Überlastung beitragen.

Ticket-Systeme sind an sich nicht schlecht, sie werden nur zu oft übertrieben und aus den falschen Gründen eingesetzt. Sie eignen sich immer noch für einmalige Anfragen sowie für die Dokumentation von Mensch zu Mensch, wenn Freigaben unvermeidlich sind. Doch die Anzahl der Tickets kann sich summieren und Ressourcen verschwenden.

Mehr Effizienz statt Zeitverschwendung

Unternehmen sollten sich eine Verantwortlichkeits-Mentalität (Service Ownership) zu eigen machen, bei der Ingenieure und Entwickler so viel wie möglich vom Produktlebenszyklus übernehmen. Auf diese Weise können Übergaben sowie die ausschließliche Verwaltung von Vorfällen über Tickets vermieden werden. Diese Umstellung bedeutet jedoch nicht das Ende der Ticketsysteme: Die Möglichkeit, IT-Anfragen zu katalogisieren und transparent zu halten, muss weiterhin bestehen bleiben.

Die Self-Service-Automatisierung verbessert die Reaktion auf Incidents, indem sie bei der Priorisierung wichtiger Aufgaben hilft. Das reduziert Wartezeiten, minimiert Unterbrechungen bezüglich des Kontexts und verkürzt Feedbackschleifen. Geeignete Schnittstellen für den Self-Service stellen sicher, dass die verbleibenden Warteschlangen für echte Ausnahmen reserviert sind. Die gleiche Technologie kann auch wirksam verhindern, dass ein Team einem anderen Team zusätzliche Arbeit macht, indem sie ermöglicht, dass diese die Arbeit selbst erledigen. Weitere Strategien zur Verringerung des Arbeitsaufwands können die Automatisierung zeitaufwendiger Aufgaben sein, wie z. B. Runbook-Prozesse oder die Diagnose und Behebung von Problemen in der Infrastruktur der Produktionsumgebung sein. Die Unterdrückung von Alerts und automatisierte Wartungsfenster können ebenfalls dazu beitragen, die Teams zu entlasten und ihnen mehr Zeit für Aufgaben mit hoher Priorität zu geben.

Über Mandi Wallis

Mandi Walls ist DevOps-Advocate bei PagerDuty. Dort unterstützt sie Technologieunternehmen dabei, ihre Effizienz durch moderne IT-Praktiken bei ungeplanten IT-Vorfälle zu steigern. Sie spricht regelmäßig auf technischen Konferenzen und ist Autorin des Whitepapers "Building a DevOps Culture", das von O’Reilly veröffentlicht wurde. Ihr Interesse gilt der Entwicklung neuer Tools und Workflows, die den Betrieb großer und komplexer IT-Systeme vereinfachen.