Künstliche Intelligenz

Stream Processing kombiniert KI mit Datenanalytik in der Hybrid-Cloud

Stream Processing kombiniert KI mit Datenanalytik in der Hybrid-Cloud

Triebfedern für das KI-Zeitalter

Der Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) wächst in rasantem Tempo, wenn auch oft noch in Test-Umgebungen. Unternehmen entwickeln parallel dazu ihre Dateninfrastruktur konsequent weiter, um von den aktuellen technologischen Entwicklungen zu profitieren und um im Wettbewerb, der von der Digitalisierung angeheizt wird, zu bestehen.

Die Verlagerung der Dateninfrastruktur und der Datennutzung eines Unternehmens auf eine „KI-bereite“ Infrastruktur bringt nach Meinung von Ververica (ehemals data Artisans) mehrere kritische Schritte und Überlegungen mit sich. Dies gilt insbesondere für Unternehmen, die künstliche Intelligenz in großem Maßstab nutzen wollen. Diese kritischen Aspekte reichen von der Sicherstellung, dass die erforderlichen Datenprozesse zur Einspeisung dieser Technologien vorhanden sind, bis hin zu den richtigen Fähigkeiten für die jeweilige Aufgabe.

Daher beginnen Unternehmen ihren Weg zur „KI-Erkenntnis“ meist mit der Implementierung von Technologien, die den Betrieb und die Orchestrierung von Datenteams rationalisieren. Zudem müssen sie in der Regel ihre Geschäftsstrategie überdenken, denn welche Daten benötigen sie eigentlich? Dies ist ein natürlicher erster Schritt für die meisten Unternehmen, da ML und andere KI-Initiativen stark von der Verfügbarkeit und Qualität der Eingabedaten abhängen, um sinnvolle und korrekte Ergebnisse zu erzielen. Die Gewährleistung, dass die Pipelines, die diese Leistungen erbringen, unter den gewünschten Leistungs- und Fehlertoleranzanforderungen arbeiten, wird zu einem notwendigen, aber sekundären Schritt.

Wie eine aktuelle Studie von O'Reilly Media ergab, planen mehr als 60 Prozent der Unternehmen, in den nächsten zwölf Monaten mindestens fünf Prozent ihres IT-Budgets für künstliche Intelligenz aufzuwenden. In Anbetracht des weiter wachsenden Interesses an KI und der Tatsache, dass Unternehmen für den Rest des Jahres stark in KI-Initiativen investieren wollen, ist zu erwarten, dass eine wachsende Zahl von Early-Adopter-Unternehmen mehr IT-Budget für grundlegende Datentechnologien zum Sammeln, Bereinigen, Transformieren, Speichern und Bereitstellen von Daten aufwenden wird. Zu diesen Technologien können unter anderem Plattformen für Datenintegration und ETL (Extract, Transfor, Load), Data Governance und Metadatenmanagement gehören.

Die große Mehrheit der Unternehmen, die sich auf diesen Weg begeben haben, beschäftigt bereits Teams von Datenwissenschaftlern oder ebenfalls qualifizierten Mitarbeitern. Diese Unternehmen nutzen die Flexibilität der Infrastruktur in der Cloud, um unternehmensweite Datendienstplattformen zu erkunden und aufzubauen. Solche Plattformen unterstützen die Zusammenarbeit durch Mandantenfähigkeit ideal und koordinieren mehrere Dienste unter einem Dach, wodurch der Datenzugriff und die Datenbearbeitung innerhalb der Organisation demokratisiert werden. Es ist nicht verwunderlich, dass Technologie-Giganten wie Uber, Airbnb und Netflix ihre eigenen internen Datenplattformen eingeführt haben, die es den Anwendern ermöglichen, schwierige Prozesse wie das Training und die Produktion von Deep-Learning-Modellen zu rationalisieren oder ML-Modelle experimentell zu nutzen.

Die Software-Experten des Berliner Software-Startups Ververica fragen aber: Wie bauen Unternehmen ihre Infrastruktur aus, um „KI-bereit“ zu werden? Setzen sie datenwissenschaftliche Plattformen und Dateninfrastrukturprojekte vor Ort ein oder nutzen sie einen hybriden Multi-Cloud-orientierten Ansatz für ihre Infrastruktur? Da immer mehr Unternehmen den "Write Once, Run Anywhere"-Ansatz für die Dateninfrastruktur verfolgen, sind mehr Unternehmensentwicklungen in einer Kombination aus On-Prem- und Cloud-Umgebungen oder sogar einer Kombination verschiedener Cloud-Services für ein und dieselbe Anwendung zu erwarten.

In einer anderen aktuellen Umfrage von O’Reilly Media gaben mehr als 85 Prozent der Befragten an, dass sie beabsichtigen, einen (oder mehrere) der sieben großen Public Cloud-Anbieter für ihre Dateninfrastrukturprojekte zu nutzen, nämlich AWS, Google Cloud, Microsoft Azure, Oracle, IBM, Alibaba Cloud oder andere Partner. Unternehmen in verschiedenen Regionen zeigten Interesse an einer Umstellung auf eine Cloud-Dateninfrastruktur als Mittel zur Nutzung von KI und ML, wobei mehr als 80 Prozent der Befragten in Nordamerika, EMEA und Asien antworteten, dass dies die Strategie ihrer Wahl sei. Ein Beweis für den zunehmenden Trend zu einer hybriden Multi-Cloud-orientierten Anwendungsentwicklung ist die Erkenntnis, dass jeder zehnte Befragte alle drei großen Cloud-Anbieter für einen Teil seiner Dateninfrastruktur (Google Cloud Platform, AWS und Microsoft Azure) nutzt.

Zweifellos werden Technologien zur effektiven Erfassung und Verarbeitung von Daten im Maßstab 1:1 nicht nur zur obersten Priorität, sondern zu einer unverzichtbaren Notwendigkeit, sobald Unternehmen mit ihren KI- und ML-Bemühungen ernst machen. Dies ist nach Meinung von Ververica keine Überraschung, wenn man die Bedeutung von Echtzeitdaten für die Entwicklung, Schulung und Bereitstellung von ML-Modellen für das moderne Unternehmen bedenkt. Kontinuierliche Verarbeitung und Echtzeit-Datenarchitekturen werden auch dann zum Schlüsselfaktor, wenn ML und andere Anwendungsfälle der KI in die Produktion übergehen.

Hier setzt Apache Flink als moderne Engine für Open-Source-Stream-Processing an: Flink wurde von Grund auf für die Stream-Verarbeitung entwickelt, mit unschlagbaren Leistungsmerkmalen, einer hochskalierbaren Architektur sowie starken Konsistenz- und Fehlertoleranzgarantien. So wird Flink bereits in den größten Streaming-Produktionsumgebungen der Welt eingesetzt, wobei riesige Mengen an Echtzeitdaten mit einer Latenzzeit von weniger als einer Sekunde verarbeitet werden. Beispiele für solche groß angelegten Anwendungsfälle sind Netflix, wo Apache Flink für die Echtzeit-Datenverarbeitung zum Erstellen, Warten und Bedienen von ML-Modellen zum Einsatz kommt. Diese Modelle werden verwendet, um die verschiedenen Teile der Website zu unterstützen, einschließlich Videoempfehlungen, Suchergebnis-Ranking und Auswahl von Grafiken. Google setzt Apache Flink zusammen mit Apache Beam und TensorFlow zur Entwicklung von TensorFlow Extended (TFX) , eine End-to-End-Lernplattform für TensorFlow, die Produkte im gesamten Alphabet-Konzern unterstützt, ein.

Die Entwicklung in Richtung KI-Nutzung mag für manch Unternehmen zunächst wie eine überwältigende und beängstigende Aufgabe erscheinen. Daher gilt es nach Meinung von Ververica, die richtigen Investitionen und Entscheidungen im Vorfeld zu treffen, um eine geeignete Infrastruktur für Datentechnik und Analytik aufzubauen, Cloud-basiert zu denken und Stream Processing als Echtzeit-Business-Enabler zu betrachten. Dies wird nach Meinung des Berliner Software-Startups technologisch führenden Marktakteuren helfen, ihre KI-Strategie voranzubringen und künftig in hohem Maße von KI zu profitieren.