KI

Cybersecurity: Ohne menschliche Intelligenz ist künstliche Intelligenz nutzlos

Cybersecurity: Ohne menschliche Intelligenz ist künstliche Intelligenz nutzlos

Von Dr. Sven Krasser, Chief Scientist bei CrowdStrike

In der Cyber Security-Branche kursiert eine Annahme: Um Sicherheit zu gewährleisten, braucht es eine KI-basierte Lösung, die komplett autonom agiert, und um das zu erreichen, muss der Mensch von der KI ferngehalten werden.

Dr. Sven Krasser, Chief Scientist bei CrowdStrike

Als jemand, der sich seit Jahren mit dem Thema KI und Cyber Security beschäftigt, find ich diese Behauptung befremdlich. Denn gerade mit Hilfe des menschlichen Knowhows ist KI besonders effektiv. Doch woher kommt diese menschenfeindliche Sichtweise auf KI und was zeichnet ein gut konzipiertes KI-System aus?

Irrtümer

Zwei Denkfehler treiben bei der menschenfeindlichen KI-Sichtweise ihr Unwesen. Erstens: Künstliche Intelligenz ist nicht tatsächlich intelligent. Jedes Gespräch mit einem smarten Lautsprecher wird dies beweisen. Künstliche Intelligenz ist eine Reihe von Algorithmen und Techniken, die oft nützliche Ergebnisse liefern. Aber manchmal versagen sie auf seltsame und nicht intuitive Weise. Künstliche Intelligenz selbst besitzt sogar eine eigene Angriffsfläche, die von Angreifern genutzt werden kann, wenn sie ungeschützt bleibt. Es ist daher gefährlich, KI als Allheilmittel für die Probleme unserer Branche zu betrachten.

Zweitens sind wir alle noch von der Zeit der Signaturen abgestumpft. Damals wurden Signaturen eingesetzt, die anfänglich Bedrohungen aufhielten, dann aber neue Bedrohungen übersahen, woraufhin Menschen neue Signaturen schrieben und der Zyklus am nächsten Tag von vorne begann. Mit diesem Ansatz kann man nicht gewinnen, denn dieses Modell ist nicht nur rein reaktiv, sondern auch in seiner Geschwindigkeit durch die menschliche Reaktionszeit deutlich begrenzt. Und natürlich werden KI-Modelle nicht auf diese Weise zur Abwehr von Bedrohungen eingesetzt. Für moderne KI-Modelle, wie sie beispielsweise in der CrowdStrike Falcon-Plattform eingesetzt werden, ist keinerlei menschliche Interaktion erforderlich, um eine Bedrohung sofort zu stoppen. Hier wird KI gezielt eingesetzt, um Bedrohungen zu erkennen, an die noch niemand gedacht hat – und zwar ohne dass irgendwelche Updates erforderlich sind.

Daten, Daten, Daten

Doch was braucht es, um ein KI-Modell erfolgreich zu trainieren? Zuallererst braucht es Daten – und zwar viele. Allein die CrowdStrike Security Cloud verarbeitet pro Tag über eine Billion Ereignisse von Endpunktsensoren. Zum Vergleich: Ein Ries von 500 Seiten Druckerpapier ist etwa 50 Millimeter dick. Würden wir jedes Ereignis auf ein Blatt DIN A4 ausdrucken, dann würden sich diese Seiten nach einem Tag etwa 100.000 Kilometer hoch stapeln. Das wären genug Meilen, um sich bei den meisten Fluggesellschaften täglich den Goldstatus zu erfliegen. Sie bräuchten jedoch in etwa vier Tage, um diese Strecke im Flugzeug bei normaler Reisegeschwindigkeit zurückzulegen. Und in diesen vier Tagen würde der Papierstapel dann schon längst den Mond erreicht haben.

Allerdings sollte man bedenken, dass dieser metaphorische Stapel nicht nur hoch ist. In unserem Beispiel umfasst die Datenbasis ganz verschiedene Facetten wie Endpunktsicherheit, Cloud-Sicherheit, Identitätsschutz, Threat Intelligence und vieles mehr. Für jede dieser Facetten werden komplexe und nuancierte Datensätze kontextualisiert und korreliert. Um diese Datenmengen effektiv und sinnvoll zu verarbeiten, haben wir die Falcon-Plattform von Anfang an als Cloud-natives System konzipiert. Nichts davon ist auf einer Appliance möglich. Und nichts davon ist mit hybriden Cloud-Lösungen möglich, also mit Clouds, die lediglich aus gestapelten herstellerverwalteten Appliances bestehen.

Mehr Daten ermöglichen es uns auch, schwächere Signale zu erkennen. Nehmen wir an, Sie beginnen, die Längen- und Breitengrade europäischer Städte auf Millimeterpapier aufzutragen. Anfänglich werden Sie einige zufällig verstreute Punkte sehen. Aber wenn Sie dies für eine größere Anzahl von Städten tun, wird sich langsam die vertraute Form Europas aus einer Wolke von Punkten herauskristallisieren. Das funktioniert jedoch nicht, wenn jeder ein „lokales“ Stück Millimeterpapier hat, auf dem eine Handvoll Städte in der näheren Umgebung aufgezeichnet werden. Bei einer globalen Ansicht kommt die Kombination aus Cloud und KI jedoch erst richtig zur Geltung.

Struktur und Grundwahrheit

Wie passt nun der Mensch in dieses Bild? Wenn sich auf unserem metaphorischen Stapel von Druckerpapier so viele Informationen stapeln, dass selbst ein Verkehrsflugzeug damit nicht Schritt halten könnte, wie hat der Mensch dann eine Chance, etwas zu bewirken?

Es gibt zwei Möglichkeiten. Erstens ist das Stapeln der Blätter nicht die effektivste Art, sie zu organisieren. Legt man sie flach nebeneinander aus, ergibt sich ein Papierquadrat von etwa 250 mal 250 Kilometern Seitenlänge. Das ist viel überschaubarer – ein solches Gebiet könnte kartiert werden. Wenn wir den Papierstapel stattdessen aber in einem Würfel anordnen, wäre es ein Würfel von 180×180×180 Metern Kantenlänge. Beachten Sie, dass es sich jetzt um Meter und nicht mehr um Kilometer handelt, was das Ganze sehr viel kompakter und kartierfähiger macht. Aus dem gleichen Grund werden Bücher in einer Bibliothek auf Etagen, in Gängen und in Regalen aufbewahrt anstatt lose Seiten zu stapeln. Durch geschickte Organisation kann man die richtigen Daten schneller finden, und in der Cloud haben wir den Vorteil, dass wir nicht wie eine Bibliothek auf drei Dimensionen beschränkt sind.

Zweitens: Nicht alle Daten sind gleich geschaffen. Es gibt noch eine andere Art von Daten, zu denen Menschen leicht beitragen können. Wir nennen diese Art von Daten „Ground Truth“ oder Grundwahrheit, und sie hat einen erheblichen Einfluss auf das Training von KI-Modellen. Die Grundwahrheit ist die Art von Daten, die beschreibt, wie sich ein KI-Modell bei bestimmten Eingaben verhalten soll. Für unseren metaphorischen Papierstapel wäre ein Beispiel für Grundwahrheit, ob ein Blatt Papier einer Bedrohung (z. B. ein rot gefärbtes Blatt) oder einer gutartigen Aktivität (ein grün gefärbtes Blatt) entspricht. Wenn Sie Ihre Daten, wie oben beschrieben, sinnvoll organisieren, benötigen Sie nur einige wenige farbige Blätter, um auch Informationen für ganze Papierstapel abzuleiten. Stellen Sie sich vor, Sie ziehen irgendwo in unserem Papierwürfel ein Blatt aus einem Stapel heraus, und es ist zufällig rot. Die anderen Blätter in diesem Stapel sind wahrscheinlich auch rot. Und einige der benachbarten Riese werden ebenfalls überwiegend rotes Papier enthalten. Auf diese Weise lernen bestimmte Arten von KI: Sie finden heraus, wie sie auf ähnliche (benachbarte) Eingaben reagieren sollen, und zwar auf der Grundlage der Grundwahrheit – dies wird als überwachtes Lernen bezeichnet.

Da Grundwahrheit seltener ist als andere Daten, vermischen andere Techniken diese beiden Ansätze. Beim halb-überwachten Lernen wird eine KI auf große Datenmengen unüberwacht trainiert und dann durch überwachtes Training mit weniger Grunddaten optimiert. Beim selbstüberwachten Lernen zieht die KI Anhaltspunkte aus der Struktur der Daten selbst.

Menschen, Menschen, Menschen

Im Idealfall sind Systeme so konzipiert, dass sie möglichst viel Grundwahrheit generieren. Wenn Threat Hunter zum Beispiel einen Gegner im Netzwerk finden oder verdächtige Aktivitäten als gutartig einstufen, werden diese Erkenntnisse zu einer neuen Grundwahrheit. Diese Datenpunkte helfen beim Trainieren oder Bewerten von KI-Systemen.

KI-Systeme können auch Vorfälle erkennen, bei denen die Faktenlage dünner ist und ein höheres Maß an Unsicherheit besteht. Während die KI unter diesen Umständen immer noch Bedrohungen ohne Verzögerung verhindern kann, können die markierten Daten später von Menschen überprüft werden, um die Menge der verfügbaren Fakten gerade in den Bereichen zu erhöhen, in denen es Engpässe gibt. Alternativ können auch andere Mittel zusätzliche Daten liefern, z. B. eine Detonation innerhalb einer Sandbox, um das Verhalten der Bedrohung in einer kontrollierten Umgebung zu beobachten. Solche Lösungen beruhen auf einem Paradigma, das als aktives Lernen bezeichnet wird.

Aktives Lernen ist eine nützliche Methode, um die begrenzte Ressource menschlicher Aufmerksamkeit dort einzusetzen, wo sie am wichtigsten ist. KI-Entscheidungen werden nicht ausgebremst – die KI wird weiterhin Bedrohungen analysieren und sofort stoppen. Wir nennen dies die „schnelle Schleife“. Unter anderem analysieren Experten, was unsere KI-Systeme aufdecken, und geben eine Einschätzung ab, die wir in unsere KI-Algorithmen zurückführen. Auf diesem Weg erhalten unsere KI-Modelle einen ständigen Strom von Rückmeldungen darüber, wo sie erfolgreich waren und wo wir neue Angriffe mit anderen Mitteln aufspürten und stoppten. Die KI lernt aus diesem Feedback und bezieht es in künftige Erkennungen mit ein. Wir nennen diesen Teil „die lange Schleife“. Infolgedessen wird unsere KI ständig besser, da ständig neue Daten und neue Grundwahrheiten in das System einfließen.

Abschließende Überlegungen

KI wird immer mehr zu einem alltäglichen Werkzeug, um Cyber-Bedrohungen zu stoppen, aber es ist wichtig, über das bloße Vorhandensein eines KI-Algorithmus irgendwo im Datenfluss hinauszuschauen. Um die Wirksamkeit eines KI-Systems zu beurteilen, muss man verstehen, woher die Daten kommen, einschließlich der notwendigen Grundwahrheiten. Künstliche Intelligenz kann nur dann lernen, wenn ständig neue Fakten in großem Umfang in das System einfließen, so dass gut konzipierte KI-Systeme den Menschen in einer Feedback-Schleife miteinbeziehen.