KI-Crawling

Cloudflare führt standardisiertes System zur Steuerung automatisierter Zugriffe ein

06.10.2025, Cloudflare | Autor: Herbert Wieler

KI-Crawling unter Kontrolle

Cloudflare hat ein standardisiertes System zur Steuerung automatisierter KI-Zugriffe eingeführt. Neue Domains auf dem Cloudflare-Netzwerk blockieren seit Juli 2025 standardmäßig alle Crawler, die Inhalte für Trainingszwecke, Suchindizierung oder Inferenz nutzen wollen. Betreiber müssen den Zugriff aktiv freigeben. Damit etabliert der Anbieter eine technische und wirtschaftliche Grundlage für einen regulierten Umgang mit KI-Systemen im Web.

Das System ist nicht als einzelne Produktfunktion angelegt, sondern als strategische Infrastrukturmaßnahme. Cloudflare betreibt mit seiner Connectivity Cloud eines der weltweit größten Netze und verarbeitet mehr als 20 Prozent des globalen Webtraffics. Die Serverarchitektur ist in über 330 Städten und 125 Ländern identisch aufgebaut, was eine homogene Durchsetzung von Richtlinien ermöglicht.

Strukturelles Problem bei Inhaltsverwertung durch KI

Stephanie Cohen, Chief Strategy Officer bei Cloudflare

Die Maßnahme ist eine Reaktion auf einen grundlegenden Wandel im Webverhalten. Immer mehr Nutzer greifen nicht mehr direkt auf Inhalte zu, sondern konsumieren automatisch erzeugte Zusammenfassungen durch KI-Systeme. Der Verkehr bleibt dabei nicht auf der ursprünglichen Website, sondern endet in der Antwort des Modells. Für Betreiber bedeutet das Sichtbarkeitsverlust, fehlende Monetarisierung und keinerlei Transparenz über Nutzung und Weiterverarbeitung. Stephanie Cohen, Chief Strategy Officer bei Cloudflare , sagt dazu: „Ohne Anreize für die Erstellung originärer Inhalte geht dieser verloren.“

Bei klassischen Suchmaschinen gelangen Nutzer über den Index direkt auf die ursprüngliche Website, bei KI-Anwendungen bleibt dieser Schritt oft aus. Dieses Weiterleitungsprinzip entfällt zunehmend, da KI-Systeme Antworten direkt generieren, ohne auf die Quellseiten zu verweisen. Das Modell Pay-per-Crawl soll an dieser Stelle eine neue Marktstruktur ermöglichen. Es erlaubt die gezielte Steuerung, wer Inhalte crawlen darf und wofür. Gleichzeitig werden wirtschaftliche Parameter eingebaut. Der Zugriff kann entgeltlich erfolgen, automatisiert gesteuert und für bestimmte Verwendungszwecke begrenzt werden.

Neue Infrastruktur für verifizierte Crawler

Zentrale technische Grundlage ist das Protokoll WebBotAuth. Es erlaubt die kryptografische Verifikation von Crawlern. Damit können nicht nur Herkunft und Zweck deklariert werden, sondern auch die Identität des Crawlers sicher bestätigt werden. Cloudflare will damit verhindern, dass gefälschte Crawler unter dem Namen bekannter Anbieter Inhalte absaugen. Die Authentifizierung erfolgt mit digital signierten Nachrichten, die in der Webserver-Konfiguration geprüft werden können.

Crawler müssen beim Zugriff deklarieren, ob sie Inhalte für Training, Suche oder andere Zwecke verwenden. Betreiber erhalten diese Angaben im Dashboard und können ihre Richtlinien entsprechend definieren. Die Richtlinien greifen direkt auf Netzwerkebene und ergänzen bestehende Mechanismen wie robots.txt. Letztere werden im Hintergrund automatisch auf Fehler überprüft. Syntaxfehler, falsche Formatierungen oder ungültige Agent-Bezeichner lassen sich über die Cloudflare-Plattform korrigieren. Vor allem im deutschsprachigen Raum war dies laut Cohen ein häufiges Problem.

Policy-Management auf Inhaltsebene

Die Steuerung erfolgt über ein zentrales Dashboard, das Teil der Cloudflare-Plattform ist. Dort lassen sich gezielt Regeln pro Crawler und pro Zweck festlegen. Zugriff für Trainingszwecke, aber Sperrung für Indizierung oder umgekehrt, sind technisch möglich. Unternehmen sehen in Echtzeit, welche Crawler aktiv sind, welche Anfragen blockiert wurden und wie sich der Traffic verteilt. Ergänzt wird das System durch den AI-Audit, der protokolliert, wie automatisierte Zugriffe auf Inhalte erfolgen.

Für Content-Anbieter bedeutet das erstmals eine verlässliche Möglichkeit zur Durchsetzung von Zugriffsentscheidungen auf technischer Ebene. Für KI-Unternehmen bedeutet es Transparenz in der Nutzung und potenzielle Kosten für die Inhaltsverwendung. Ziel ist laut Cohen nicht die Verhinderung von KI-Zugriffen, sondern deren Steuerung: „Wir wollen kein System der Blockade, sondern ein tragfähiges Modell, das Content-Creators und KI-Entwickler gleichermaßen einbindet.“

Systematisches Opt-in statt reaktives Opt-out

Mit dem System wechselt Cloudflare von einem Opt-out- zu einem Opt-in-Modell. Wer eine neue Domain bei Cloudflare anmeldet, wird explizit gefragt, ob KI-Crawler erlaubt sind. Die Voreinstellung ist Blockierung. Betreiber können dies nachträglich ändern, die Kontrolle bleibt beim Kunden. Laut Cohen sei dieser Wechsel bewusst eingeführt worden, um den Status quo umzukehren: Nicht mehr Website-Betreiber müssen sich aktiv gegen Crawler wehren, sondern Crawler benötigen explizite Zustimmung.

Pay-per-Crawl befindet sich derzeit in einer offenen Betaphase. Unternehmen jeder Größe können teilnehmen, unabhängig davon, ob sie Inhalte zur Verfügung stellen oder als KI-Anbieter auf Daten zugreifen. Cloudflare verarbeitet Feedback kontinuierlich und erweitert die Funktionalität anhand konkreter Anforderungen. Neben großen Verlagen beteiligt sich auch eine Vielzahl kleiner Anbieter und Plattformen am Programm.

Skalierbar auch für kleinere Betreiber

Ein zentrales Element des Modells ist die Gleichbehandlung aller Betreiber. Die Funktionen zur Crawler-Kontrolle, Verifikation und Monetarisierung sind vollständig über das Cloudflare-Dashboard verfügbar und benötigen keine Spezialintegration. Das System lässt sich in bestehende Websites und Anwendungen integrieren, unabhängig von deren Größe oder technischer Komplexität. Die wirtschaftliche Abwicklung der Zugriffskontrolle erfolgt vollständig über Cloudflare.

Für Organisationen mit wenig technischer Infrastruktur bedeutet das Schutz und Kontrolle ohne zusätzliche Infrastrukturkosten. Für KI-Anbieter bedeutet es Zugriff nur auf Inhalte, für die Genehmigung und Bezahlung vorliegt. Cohen spricht davon, dass sich Cloudflare als „Marktvermittler“ versteht, nicht als Schutzmauer. Die Plattform sei so gestaltet, dass daraus ein funktionierendes Ökosystem entstehen könne, mit Regeln, Anreizen und verlässlicher Infrastruktur.

Durch seine Größe sieht sich Cloudflare in der Lage, systemische Veränderungen im Web frühzeitig zu erkennen. Das Unternehmen betreut Millionen von Domains, darunter sowohl große Konzerne als auch kleinere Websites. Laut Cohen führt diese Diversität dazu, dass Bedrohungen, neue Verhaltensmuster und technische Veränderungen früher sichtbar werden als in isolierten Systemen. Diese Erkenntnisse fließen in die Produktentwicklung ein, zum Beispiel bei der Klassifikation von Bots, der Bedarfsanalyse für Policy-Funktionen oder der Definition neuer Standards zur Crawler-Verifikation.

Parallel dazu beteiligt sich Cloudflare an der Standardisierung offener Protokolle für die Authentifizierung von Bots. Ziel ist es, eine öffentliche Infrastruktur zu schaffen, über die sich automatisierte Zugriffe systemweit verlässlich steuern lassen, unabhängig vom verwendeten Hosting oder Dienstleister.

Fazit: Infrastruktursteuerung statt Inhaltsverteidigung

Cloudflare geht mit der Einführung von Pay-per-Crawl und der Blockade nicht autorisierter Crawler einen Schritt über klassische Inhaltsverteidigung hinaus. Das Unternehmen strukturiert die Bedingungen, unter denen Inhalte im Netz durch Maschinen verarbeitet werden dürfen. Der Schritt zielt auf Marktgestaltung, nicht auf reinen Schutz. Cohen bringt es auf den Punkt: „Wir schaffen die Voraussetzungen für ein nachhaltiges Ökosystem, in dem Innovation durch KI möglich bleibt, ohne dass die Ersteller leer ausgehen.“

Mit dieser Architektur positioniert sich Cloudflare nicht nur als CDN- oder Security-Anbieter, sondern als Plattformbetreiber, der Inhalte, Zugriffe und wirtschaftliche Interessen technisch vermittelt. Die Infrastruktur ist bereit, die Regeln sind implementiert. Jetzt liegt es an Content-Anbietern und KI-Firmen, sich in diesem Rahmen zu organisieren.