Bildgenerierung

Cloudflare und Black Forest Labs kooperieren: Integration von FLUX.2 [dev] auf Cloudflare Workers AI

Cloudflare und Black Forest Labs kooperieren: Integration von FLUX.2 [dev] auf Cloudflare Workers AI

Cloudflare Workers AI und FLUX 2

Mit dem Erscheinen von Nano Banana von Google und den Bildgenerierungsmodellen von OpenAI haben proprietären KI-Modelle in den letzten Monaten einen großen Sprung nach vorne gemacht. Cloudflare verkündete kürzlich, dass mit dem Start von FLUX.2 von Black Forest Lab das Modell auf der Cloudflare-Inferenzplattform Workers AI ausgeführt werden kann. Mehr Informationen zum Modell FLUX.2 können Interessierte hier nachlesen.

Auch die Vorgängerversion, FLUX.1, ebenfalls von Cloudflare gehostet, zählt aufgrund seiner fotorealistischen Ergebnisse und der detailgetreuen Bildgenerierung zu den beliebtesten Modellen in diesem Bereich. Bei FLUX.2 wurden die besten Funktionen der vorherigen Version noch einmal optimiert, um mit Unterstützung von zusätzlichen Anpassungsoptionen wie JSON-Prompting noch realistischere und überzeugendere Bilder generieren zu können.

Die auf Workers AI von Cloudflare gehostete Version von FLUX.2 weist einige spezifische Muster auf, wie die Verwendung von Multipart-Formulardaten zur Unterstützung von Eingabe-Bildern (bis zu vier Bilder mit 512×512 Pixel) und Ausgabe-Bildern mit bis zu 4 Megapixel. Mit dem Multipart-Formulardatenformat können Nutzer Cloudflare neben den üblichen Modellparametern auch mehrere Bildeingaben senden. Wie das FLUX.2-Modell konkret verwendet wird, lässt sich der Changelog-Ankündigung in der Entwicklerdokumentation entnehmen.

Was ist das Besondere an FLUX.2?

Kurz zusammengefasst: Das FLUX.2-Modell beruht auf einem besseren Verständnis der realen Welt, wodurch abstrakte Konzepte in etwas Fotorealistisches verwandelt werden können. Es zeichnet sich durch die Generierung realistischer Bilddetails aus und stellt Hände, Gesichter, Stoffe, Logos und kleinere Objekte, die von anderen Modellen oft übergangen werden, korrekt dar.

Aufgrund ihrer hohen Darstellungstreue ist die Lösung ideal für Anwendungsbereiche, die eine herausragende Bildqualität verlangen – zum Beispiel für kreative Fotografie, E-Commerce-Produktaufnahmen oder Marketingmaterialien. Da das Modell Kontext, Tonalität und Trends versteht, kann es mit kurzen, einfachen Prompts ansprechendes digitales Material in hoher Qualität erstellen.

Das Modell ist jedoch nicht nur in der Lage, die reale Welt abzubilden, sondern auch digitale Produkte wie Startseiten von Websites oder ausführliche Infografiken zu kreieren. Außerdem versteht es mehrere Sprachen. Durch die Kombination dieser beiden Funktionen lässt sich zum Beispiel aus einem französischen Prompt eine ansprechende Landingpage auf Französisch generieren.

Die Herausforderung der stochastische Abweichung: Zeichenkonsistenz als Lösung

FLUX.2 bietet zusätzlich Multi-Referenz-Bearbeitung mit modernster Zeichenkonsistenz und gewährleistet die Einheitlichkeit von Identitäten, Produkten und Design-Stilen innerhalb einer Aufgabe. Das ist besonders hilfreich im Arbeitsalltag, denn: Mithilfe von generativer KI einmalig ein qualitativ hochwertiges Bild zu erzeugen, ist leicht. Die Schwierigkeit bestand bisher aber immer darin, eine Figur oder ein Produkt beim zweiten Mal wieder genau gleich aussehen zu lassen. Man spricht hier von einer „stochastischen Abweichung“, wenn generierte Bilder Unterschiede gegenüber dem ursprünglichen Ausgangsmaterial aufweisen.

Zu den bei FLUX.2 erzielten Durchbrüchen gehört die Multi-Referenz-Bildeingabe, die dieses Konsistenzproblem lösen soll. Damit lassen sich Hintergrund, Beleuchtung oder Pose in einem Bild anpassen, ohne versehentlich das Gesicht des Modells oder das Design des Produkts zu verändern. Außerdem können Nutzer auch auf andere Bilder verweisen oder mehrere Bilder zu etwas Neuem kombinieren. Der Quellcode von Workers AI sieht die Unterstützung von (bis zu vier) Multi-Referenz-Bildern mit einem Multipart-Formulardaten-Upload vor.

Reale Anwendungsfälle in der Praxis

Das neueste Bildmodell stellt eine Verlagerung zu funktionalen Use Cases im Geschäftsalltag dar, die über einfache Verbesserungen der Bildqualität hinausgehen. Denn FLUX.2 ermöglicht Nutzern:

  • Das Erstellen verschiedener Varianten der gleichen (Werbe)-Anzeige: Es können 50 verschiedene Anzeigen mit exakt demselben Schauspieler erstellt werden, ohne dass sich sein Gesicht zwischen den Frames verändert.
  • Die Naturgetreue Darstellung von Produktfotos: Anwender können Ihr Produkt an einem Model, in einer Strandszene, einer Straße oder auf einem Studiotisch platzieren: Es wird immer naturgetreu dargestellt, auch wenn sich die Umgebung ändert.
  • Das Erstellen dynamischer Editorials: Nutzer können eine durchgehende Strecke von Modebildern generieren, bei der das Model unabhängig vom Blickwinkel in jeder einzelnen Aufnahme identisch aussieht.

Verfügbarkeit auf Cloudflare Workers AI

Das neueste FLUX.2 [dev]-Modell ist jetzt auf Workers AI verfügbar. Interessierte können die Entwicklerdokumentation von Cloudflare nutzen, um mit dem Modell loszulegen, oder es auf dem multimodalen Playground des Unternehmens testen.