End-to-End-Sichtbarkeit

So erreicht man mehr End-to-End-Sichtbarkeit in komplexen Systemen

28.04.2023, DoubleCloud | Autor: Herbert Wieler

Warum das Beobachten der Prozesse für CTOs so dringend notwendig ist

Während die Technologie, die unser Leben durchdringt, exponentiell voranschreitet, sind die Systeme, auf die sich Unternehmen fūr ihr dauerhaftes Funktionieren verlassen, in gewisser Weise lächerlich komplex geworden. Und diese Komplexität macht es für jeden CTO extrem schwierig, zu verstehen, was in seinen Systemen letztendlich vor sich geht – ganz zu schweigen von der Identifizierung der Ursache eines Problems, sobald eines auftritt und bemerkt wird.

An dieser Stelle kommt das Beobachten oder die Beobachtbarkeit (Observability) ins Spiel, die nach Meinung von DoubleCloud zu einem entscheidenden Kriterium geworden ist.

Stefan Käser, Solution Architect bei DoubleCloud erklärt, was es mit Beobachtbarkeit auf sich hat und wo die ganz praktischen Einsatzfelder liegen. DoubleCloud aus Berlin ist ein junger Anbieter eines modernen Data-Stacks für End-to-End-Analytik.

Beobachtbarkeit bzw. Observability wird oft als die Fähigkeit definiert, den internen Zustand eines Systems zu verstehen, indem alle seine Prozesse überwacht werden, von der Infrastruktur bis hin zur Ebene der Anwendungen. Dies geschieht durch das Sammeln, Speichern und Analysieren von Daten zu allen Kennzahlen, Abläufen und Aufzeichnungen oder Protokollen, um ein vollständiges Bild des Systemverhaltens zu erhalten.

Dieses Niveau an Sichtbarkeit ermöglicht es den CTOs, Probleme schnell zu erkennen und zu beheben, die Performance zu optimieren und die Zuverlässigkeit ihrer Systeme zu gewährleisten.

Einer der Hauptvorteile der Beobachtbarkeit besteht darin, dass CTOs von einem reaktiven Ansatz zur Problemlösung abrücken und stattdessen einen proaktiven Ansatz verfolgen können. Durch das Monitoring des Systems in Echtzeit können CTOs potenzielle Probleme erkennen, bevor sie geschäftskritisch werden, und Maßnahmen ergreifen, um ihr Auftreten generell zu verhindern. Dies kann zu erheblichen Einsparungen an Zeit und Ressourcen führen.

Darüber hinaus ermöglicht dieser Prozess des ständigen Beobachtens den CTOs einen Einblick in die Leistung ihrer Systeme, was ihnen dabei helfen kann, fundierte Entscheidungen über Skalierungs- und Optimierungsprozesse zu treffen. Indem sie die wichtigsten Kennzahlen und Engpässe innerhalb ihrer Systeme verstehen, können CTOs fundierte Entscheidungen darüber treffen, wo sie Ressourcen zuweisen und wie sie die Performance verbessern können.

Zusammenfassend lässt sich sagen, dass diese Fähigkeit zum ständigen Beobachten ein entscheidendes Tool für CTOs ist, die eine End-to-End-Transparenz in komplexen Systemen erreichen wollen. Durch die Überwachung und Analyse von wichtigen Kennzahlen, Abläufen und Aufzeichnungen können CTOs proaktiv Probleme erkennen und beheben, die Performance optimieren und die Zuverlässigkeit ihrer Systeme sicherstellen.

Was passiert, wenn ein CTO mit einem komplexen System konfrontiert wird?

Heutzutage stehen CTOs immer häufiger vor der Herausforderung, ein komplexes (oft verteiltes) System zu verwalten und aufrecht zu erhalten. Da sich Unternehmen seit einiger Zeit zunehmend auf Technologie verlassen, müssen die erzeugten Nebensysteme dynamischer und vernetzter werden: Diese Komplexität macht es fast unmöglich zu verstehen, was in ihnen jeweils vor sich geht, solange keine zutreffende Lösung eingesetzt wird.

Und diese Verflechtungen machen es fast immer schwierig, unmittelbar die Ursachen von Problemen zu ermitteln, was zu längeren Ausfallzeiten und potenziellen Umsatzeinbußen führt (was niemand will).

Durch die Implementierung einer Observability-Lösung können CTOs genau dieses Ziel, ein komplexes System zu verwalten, erreichen. Mit der richtigen End-to-End-Lösung einer Beobachtung vor Ort können sie Probleme schnell erkennen und beheben, die Performance optimieren und die Zuverlässigkeit ihrer Systeme sicherstellen. Sie versetzt sie in die Lage, von einem reaktiven Ansatz zur Problemlösung abzurücken und stattdessen einen proaktiven (fast schon vorausschauenden) Ansatz zu wählen.

Durch die proaktive Überwachung der Systeme in Echtzeit kann ein CTO potenzielle Probleme erkennen, bevor sie geschäfts- oder betriebskritisch werden, und die notwendigen Maßnahmen ergreifen, um die Problematik bereits im Keim zu ersticken. Darüber hinaus ermöglicht eine gute Überwachungslösung dem CTO einen Einblick in die Performance seiner Systeme und hilft ihm, fundierte Entscheidungen über Skalierung und Optimierung zu treffen.

Welche verschiedenen Arten von Daten werden für die genaue Beobachtung benötigt?

Kennzahlen, Abläufe und Aufzeichnungen sind die drei Datentypen, die in der Regel für die genaue Beobachtung verwendet werden.

Kennzahlen sind eine Art von numerischen Daten, die eine Momentaufnahme des Systemzustands zu einem bestimmten Zeitpunkt liefern. Beispiele hierfür sind Daten zu CPU- und Speichernutzung sowie entsprechende Antwortzeiten.

Abläufe bieten einen detaillierten Einblick in eine einzelne Anfrage oder Transaktion, während sie das System durchläuft. Sie können verwendet werden, um die Performance bestimmter Dienste zu verstehen oder um Engpässe und Fehler zu erkennen.

Aufzeichnungen stellen eine Protokollierung von Ereignissen dar, die innerhalb des Systems auftreten. Sie können verwendet werden, um das Verhalten des Systems im Laufe der Zeit zu verstehen und Muster zu erkennen, die man zur Diagnose von Problemen heranziehen kann. Ohne die richtige Lösung ist die Speicherung von Protokolldaten jedoch oft ein Grund, warum Lösungen zur Beobachtung so teuer sind.

Durch die Analyse dieser Daten kann ein Engpass bei einem bestimmten Service oder einer bestimmten Ressource ermittelt werden. Diese Informationen können dann zur Diagnose und Behebung des Problems verwendet werden, was zu schnelleren Antwortzeiten und einer verbesserten Benutzerfreundlichkeit führt.

Von reaktiv zu proaktiv: Wie genaue Beobachtungen CTOs bei der Problemlösung unterstützen

In der Vergangenheit musste sich ein CTO im Durchschnitt bei der Problemlösung auf einen reaktiven Ansatz verlassen, bei dem er nur tätig werden konnte, wenn ein Problem auftrat (etwas ging kaputt, man reagierte zuerst emotional und veranlasste dann die Reparatur). Solche Ereignisse führten immer zu längeren Ausfallzeiten, entsprechenden Umsatzeinbußen und schlechten Erfahrungen der Anwender. Scherze zum schnellen Aus- und erneutem Einschalten von Systemen halfen auch nicht weiter.

Mit der End-to-End-Überwachung kann ein CTO jedoch zu einem proaktiven Ansatz zur Problemlösung übergehen und potenzielle Probleme in Echtzeit erkennen, bevor sie geschäftskritische Auswirkungen annehmen. Auf diese Weise kann man vermutlich verhindern, dass Probleme auftreten, anstatt passiv auf ihr Auftreten zu warten und dann zu versuchen, sie zu lösen. Ein Vorgehen, das zu erheblichen Zeit- und Ressourcen-Einsparungen führt. Darüber hinaus (als ob das nicht schon Anreiz genug wäre) ermöglicht die genaue Beobachtung der Systeme den CTOs, Probleme rechtzeitig zu erkennen und zu beheben, bevor sie sich negativ auf die Mitarbeiter des Unternehmens auswirken können.

Ein solches Vorgehen trägt dann dazu bei, die allgemeine Erfahrung für die Anwender zu verbessern und das Risiko der Abwanderung von Kunden zu verringern. Durch proaktives Handeln können CTOs so sicherstellen, dass ihre Systeme immer verfügbar sind und die bestmögliche Leistung erbringen.

Dies hilft auch dabei, den Ruf eines Unternehmens zu schützen und gleichzeitig das Risiko rechtlicher und regulatorischer Konsequenzen zu verringern. Ein Beispiel aus der Praxis: Wenn ein CTO bei der Überwachung seines Systems feststellt, dass bei einer bestimmten Ressource nur noch wenig Speicherplatz zur Verfügung steht, kann er Maßnahmen ergreifen, um die Speicherzuweisung zu erhöhen, bevor die Ressource nicht mehr verfügbar ist. Ein solches Vorgehen würde einen ernsthaften Zwischenfall verhindern und das Risiko von Ausfallzeiten reduzieren. Wenn man die Log- und Protokolldaten dauerhaft überwacht und ungewöhnliche Aktivitätsmuster feststellt, kann die IT-Abteilung auch Maßnahmen ergreifen, um eine Sicherheitsverletzung näher zu untersuchen und auf diese Weise zu blockieren, bevor sie tatsächlich eintritt.

Wie man Performance und Skalierbarkeit durch erhöhte Wachsamkeit optimiert

Lösungen für mehr Beobachtungsprozesse können CTOs einen bedeutenden Einblick in die Performance ihrer Systeme geben, indem sie wie bereits erwähnt Kennzahlen, Abläufe und Protokolle sammeln und analysieren.

CTOs können diese Daten nutzen, um Muster und Trends zu erkennen, die zur Diagnose von Problemen herangezogen werden können, zum Beispiel eine Zunahme von Fehlern oder ein Rückgang des Durchsatzes. Durch die Erfassung und Analyse aller drei Datentypen können CTOs ein umfassendes Verständnis der Systemleistung erlangen, was ihnen hilft, Probleme schneller und genauer zu erkennen und zu diagnostizieren sowie die Leistung ihrer Systeme zu optimieren und zu verbessern.

Angesichts der Menge an Daten, die im Laufe der Zeit durch Log-Protokolle gesammelt werden, ist es jedoch wichtig, dass eine geeignete Architektur für die Speicherung dieser Daten eingerichtet wird. Ansonsten könnten die Kosten für eine kontinuierliche Beobachtung mit der Zeit exponentiell steigen, da immer mehr Daten gespeichert werden müssen.

Alle gespeicherten Daten können dann verwendet werden, um fundierte Entscheidungen über eine Skalierung und Optimierung des Systems zu treffen. Wenn man feststellt, dass die Antwortzeiten konstant hoch bleiben, kann die jeweilige Lösung erweitert werden, um eine höhere Last zu bewältigen. Wenn man andererseits zu dem Resultat kommt, dass die Ressourcen durchweg nicht ausgelastet sind, kann man wiederum beschließen, sie zu verkleinern, um die Kosten zu senken.

Einer der größten Vorteile liegt in der Erkennung von Engpässen und der langsamen Bearbeitung von Anfragen, was bei der Optimierung von Systemen sehr hilfreich sein kann. Wenn ein Ablauf ergeben hat, dass ein bestimmter Service sehr lange braucht, um eine Anfrage zu antworten, kann man entscheiden, den Code des Services zu optimieren oder seine Ressourcen aufzurüsten. Indem der CTO die Beobachtungsprozesse verwendet, um Einblicke in die Performance eines Systems zu gewinnen, muss er nicht bloß herumstochern oder sich auf seinen Instinkt verlassen. Es ist dann möglich, datengesteuerte Entscheidungen über Skalierung und Optimierung zu treffen.

Nehmen wir als Anwendungsfall an, dass ein CTO eine E-Commerce-Webseite betreibt und es während der Weihnachtssaison zu langsamen Antwortzeiten und erhöhten Fehlerraten auf der Webseite kommt. Mithilfe von intensiven Beobachtungsprozessen könnten Kennzahlen zu Antwortzeiten, Abläufe zu bestimmten langsamen Anfragen und Aufzeichnungen gesammelt werden, um das Systemverhalten im Laufe der Zeit besser zu verstehen.

Man kann dann die Gründe für den Anstieg des Datenverkehrs ermitteln, der zu einer Überlastung des Systems geführt hat. Die Kennzahlen werden anzeigen, dass die CPU-Auslastung konstant zu hoch ist, und die Ablaufdaten werden belegen, dass Anfragen an den Zahlungsdienst länger als üblich brauchen, um angemessen zu reagieren. Und die Log- oder Protokolldaten werden nachweisen, dass der Service nicht mehr genügend Speicherplatz hat. Ausgerūstet mit diesen Informationen kann der CTO eine fundierte Entscheidung darüber treffen, wie das System skaliert werden soll, um den erhöhten Datenverkehr zu bewältigen. In diesem Fall könnte er beschließen, weitere Server hinzuzufügen, die dem Zahlungsdienst zugewiesene Speichermenge zu erhöhen oder die Hardware dieses Services aufzurüsten.

Wie man sieht, ist eine Lösung zur genauen Beobachtung der Abläufe ein unverzichtbares Tool für einen modernen CTO, der die Performance, Skalierbarkeit und Zuverlässigkeit seiner Systeme verbessern möchte. Durch die Ermöglichung von Überprüfung des Systemverhaltens in Echtzeit kann diese Technologie dazu beitragen, Muster, Anomalien und potenzielle Probleme zu erkennen, bevor sie als Störfaktoren werden. Sie kann auch dazu verwendet werden, den kontinuierlichen Umgang mit Störungen und die Reaktion auf diese zu verbessern, die Performance und Skalierbarkeit zu optimieren sowie die Zusammenarbeit und Kommunikation innerhalb einer Organisation zu verbessern.

Die Zukunft dieser Beobachtungsprozesse sieht ebenfalls vielversprechend aus, da ständig neue Technologien und Fortschritte bei Datenanalysen und Machine Learning (ML) auf den Markt kommen. CTOs werden deshalb bald in der Lage sein, noch tiefere Einblicke in ihre Systeme zu gewinnen, um noch mehr datengestützte Entscheidungen treffen zu können.

Aus diesem Grund ist es besonders wichtig, dass CTOs so schnell wie möglich mit der Implementierung von Beobachtungsprozessen in ihren Systemen beginnen. Auf diese Weise wird sichergestellt, dass ihre IT-Systeme immer verfügbar sind, die bestmögliche Performance erbringen und auch tatsächlich die von ihnen erwarteten Aufgaben zufriedenstellend bewältigen können.