data Artisans

Warum Unternehmen das Event Stream Processing ins Auge fassen sollten

Warum Unternehmen das Event Stream Processing ins Auge fassen sollten

Konzepte für schnellere Datenverarbeitung

Im zehnten Visual Networking Index (VNI) prognostiziert Cisco eine Verdreifachung des globalen Datenverkehrs in den kommenden vier Jahren. Für das Jahr 2019 erwartet das Unternehmen, dass weltweit die 2-Zetabyte Schallmauer durchbrochen wird. Als Teil dieser Entwicklung wächst auch die Menge an Daten, die unter dem Überbegriff „Big Data“ erzeugt, verarbeitet und gespeichert werden.

Experten sind sich weitgehend einig, dass diese Entwicklung neue Konzepte der Datenverarbeitung erfordert damit Unternehmen Daten effektiv auswerten und nutzen können. Eine in diesem Zusammenhang zunehmend häufig genannte Technologie ist das Event Stream Processing – die Verarbeitung von Daten in nahezu Echtzeit, die ohne die klassische Stapelverarbeitung auskommt.

Für Till Rohrmann, Software Engineer und Co-Founder bei data Artisans , dem ursprünglichen Entwickler der Open Source Stream Processing-Technologie „Apache Flink“ spielen die folgenden 5 Punkte im kommenden Jahr eine zentrale Rolle.

Echtzeit-Verarbeitung von Daten

Die Verarbeitung von Daten mit möglichst geringer Latenz ist seit langem eine große Herausforderung. Alle bisherigen Lösungen verfehlten jedoch das, was Unternehmen und Geschäftsanwender wirklich brauchten: eine schnelle Verarbeitung von Daten als Stream mit der Möglichkeit, komplexe Berechnungen und Analysen zu integrieren. Unternehmen und Nutzer hatten bislang mit hohen Latenzen zu kämpfen und versuchten, dies auf alle möglichen kostspieligen Arten zu bewältigen. Event Stream Processing löst dieses Problem.

Das Wachstum geht weiter

Eine aktuelle Qubole-Umfrage ergab, dass Apache Flink 2018 mit einer Steigerung der Akzeptanzrate um 125 Prozent im Vergleich zu 2017 das am schnellsten wachsende Open Source Projekt im Big-Data-/Hadoop-Ökosystem ist. Die Event Stream Processing-Technologie von Apache Flink wird mittlerweile in Unternehmen wie Netflix, Alibaba, Uber und Lyft eingesetzt.

Daten auf vielfältige Weise verarbeiten

Apache Flink ermöglicht dem Nutzer seine Daten auf verschiedenste Weise zu verarbeiten. Nicht nur bietet das Projekt eine Vielzahl an Integrationen mit anderen Systemen um Daten einzulesen, es bietet auch eine Vielzahl an Bibliotheken und Programmierschnittstellen, um Daten schnell und einfach der Anwendungsdomäne angepasst zu verarbeiten. Besonderes Augenmerk sei hier auf die Unterstützung von SQL gelegt, die eine einfache und nahtlose Integration in bestehende IT-Infrastruktur ermöglicht.

Apache Flink überwindet alle Hürden

Es gibt viele große Produktionsanwendungen von Apache Flink für das Event Stream Processing. Im Internet sind viele ausführliche Diskussionen von Alibaba, Netflix, Lyft, Uber, DriveTribe und anderen über die Einführung von Flink zu finden. Dabei zeigt sich, dass Event Stream Processing oftmals dort Einsatz findet, wo andere Lösungen scheitern. In Anlehnung an das Micro-Batching-Paradigma eines anderen Projekts schreibt Alibaba : „Der erste Ansatz besteht darin, Batch als Ausgangspunkt zu verwenden und dann zu versuchen, Streaming zusätzlich zum Batch aufzubauen. Dies wird jedoch wahrscheinlich nicht den strengen Latenzanforderungen entsprechen, da Micro-Batching zur Simulation von Echtzeitverarbeitung einen festen Overhead erfordert. Der Anteil des Overheads steigt aber, wenn Sie versuchen, die Latenz zu reduzieren.“

Ebenso schreibt Uber in der Diskussion über seine Flink-basierte Plattform AthenaX, wie das Unternehmen Apache Storm und Apache Samza eingesetzt hatte, bevor Flink eingeführt wurde:

„Diese Lösungen waren jedoch noch nicht ideal. Benutzer waren entweder gezwungen, ihre eigenen Streaming-Analyse-Anwendungen zu implementieren, zu verwalten und zu überwachen, oder sie waren darauf beschränkt, Antworten auf einen vordefinierten Fragensatz zu erhalten.“

Es scheint, dass auf den ersten Blick Architekturen wie Micro-Batching, Lambda-Architekturen, behelfsmäßige Stream-Processing-Technologien und alternative Stream-Processing-Projekte adäquat erscheinen. Dies gilt so lange, bis die Unternehmen feststellen, dass Anforderungen rund um die Niedriglatenz-Verarbeitung und komplexe Analyse nicht kostengünstig, skalierbar und fehlertolerant erfüllt werden können.

„Ich kann Unternehmen, die im kommenden Jahr große Projekte in Sachen Real Time Big Data anvisieren, nur raten eine Event Stream Processing-Technologie wie Apache Flink fest einzuplanen“, fasst Till Rohrmann abschließend zusammen. „Die OpenSource-Community und Anbieter wie data Artisans werden auch in Zukunft alles daran setzen, diese Technologie noch weiter voranzubringen und Unternehmen dabei zu helfen von den immer weiter wachsenden Datenströmen bestmöglich zu profitieren.“