Die bemerkenswerten Fortschritte in der künstlichen Intelligenz haben uns in eine Ära geführt, in der Computer nicht nur Daten verarbeiten, sondern auch kreative Aufgaben wie das Erstellen von Bildern übernehmen können. In diesem Artikel werden wir tiefer in die Funktionsweise von KI-Bildgeneratoren eintauchen, von der Erschaffung von Bildern bis hin zu rechtlichen Überlegungen und bewährten Tipps für die besten Ergebnisse.

Wie entstehen Bilder durch KI?

Wie Chatbots eigentlich ihre Gespräche simulieren können, habe ich bereits in diesem Artikel näher beschrieben. Ein KI-Bildgenerator funktioniert ähnlich: Er erzeugt auf Basis einer Textbeschreibung (Prompt) Bilder. Dabei gilt: Je präziser und detaillierter die Informationen, desto exakter ist das Ergebnis der KI. Darüber hinaus ist auch eine Bearbeitung bestehender Bilder möglich.

Das Generieren neuer Bilder ist deshalb möglich, weil die Programme mithilfe von riesiger Datenbanken darauf trainiert wurden, die Zusammenhänge zwischen Textbeschreibung und Bild zu erkennen. Die Bilder werden dabei zufällig erzeugt, sodass es keine identischen Ergebnisse gibt.

Um das möglich zu machen, verwenden KI-Bildgeneratoren spezielle künstliche Intelligenz-Modelle, wie zum Beispiel Generative Adversarial Networks (GANs) oder neuronale Netzwerke. Hier ist der Prozess grob dargestellt:

1. Datensammlung: Um KI-Modelle zum Erstellen von Bildern zu trainieren, benötigt man eine große Menge an Beispielfotos oder Bildern. Diese Daten dienen als Grundlage, damit die KI lernt, wie verschiedene Objekte, Formen, Farben und Muster aussehen.

2. Lernen von Mustern: Die KI analysiert diese Datensammlung und erkennt Muster und Zusammenhänge. Sie erkennt, wie beispielsweise ein Baum aussieht, welche Farben oft am Himmel vorkommen oder wie Gesichter strukturiert sind.

3. Generierung von Bildern: Nachdem die KI ausreichend gelernt hat, wie Bilder aufgebaut sind, kann sie neue Bilder erstellen. Der Prozess beginnt normalerweise mit einer zufälligen Menge von Daten, die “Rauschen” genannt werden. Die KI verwendet dann ihre erlernten Muster, um dieses Rauschen in ein Bild umzuwandeln.

4. Feinabstimmung: Die erzeugten Bilder sind oft am Anfang grob oder unscharf. Die KI nutzt Feedback-Mechanismen, um die Bilder schrittweise zu verbessern. Das Feedback kann von Menschen oder anderen KI-Teilen stammen, die beurteilen, wie realistisch die Bilder aussehen.

5. Iterativer Prozess: Die KI wiederholt diesen Prozess mehrmals. In jeder Iteration wird sie besser darin, realistische Bilder zu erzeugen, die den Mustern aus den Trainingsdaten ähneln.

Es ist wichtig zu verstehen, dass Bildgeneratoren nicht “kreativ” im menschlichen Sinne sind. Sie lernen lediglich statistische Muster aus den Trainingsdaten und generieren Bilder, die diesen Mustern ähneln. Die Qualität der generierten Bilder hängt stark von der Größe und Qualität der Trainingsdaten, der Architektur des Modells und den Trainingsparametern ab.

KI-Bildgeneratoren
Quelle: Dall-E 2

Woher stammen die Daten für KI-Bildgeneratoren?

Die Daten, die KI-Modelle verwenden, stammen aus verschiedenen Quellen wie öffentlichen Bildsammlungen, Kunstwerken und Fotos. Diese Daten werden verwendet, um den Modellen beizubringen, wie verschiedene Objekte aussehen, wie Farben funktionieren und wie die Elemente in einem Bild angeordnet sind. Es ist jedoch wichtig zu beachten, dass Bilder in den Trainingsdaten urheberrechtlich geschützt sein können.

Die Bild-KI Adobe Firefly beispielsweise verwendet für ihre generierten Bilder nur Bilder aus der hauseigenen Stockfoto-Datenbank von Adobe. Hierbei können dann z.B. noch nachträglich mithilfe von Texteingaben auch noch Bilder in bereits KI-generierte Bilder integriert werden. Der Kreativität sind somit überhaupt keine Grenzen mehr gesetzt.

KI-Bildgeneratoren
Quelle: firefly.adobe.com

Sind KI-generierte Bilder urheberrechtlich geschützt?

In den USA können Nutzer*innen von Bild-KI wie Midjourney, Dall-E oder Stable Diffusion vorläufig keinen Urheberschutz für ihre Werke erwarten. Das geht aus einer Entscheidung des US-amerikanischen Copyright-Office vom 21. Februar 2023 hervor. (siehe Artikel von t3n.de)

Ganz so einfach ist die Thematik allerdings dann doch nicht: KI-Bildgeneratoren könnten Bilder erzeugen, die urheberrechtlich geschützte Elemente enthalten. Es ist entscheidend, die Lizenzbestimmungen der Trainingsdaten zu überprüfen und die Nutzungsbedingungen der Plattform zu beachten, auf der die KI-Bilder generiert werden. Einige KI-Modelle könnten unter bestimmten Creative Commons-Lizenzen stehen, während andere möglicherweise restriktivere Bedingungen haben. Die Beachtung dieser rechtlichen Aspekte ist entscheidend, um mögliche Urheberrechtsverletzungen zu vermeiden.

OpenAI beispielsweise schreibt vor, dass Nutzer*innen von DALL-E insbesondere bei der Verbreitung über Social Media darüber informiert werden, dass der jeweilige Inhalt mithilfe von künstlicher Intelligenz erzeugt wurde. (vgl. urheberrecht.de)

Tipps für effektive Prompts

Prompts sind die Anweisungen, die man dem KI-Modell gibt, um ein Bild zu erstellen. Klare, präzise und detaillierte Anweisungen sind unerlässlich, um die gewünschten Ergebnisse zu erzielen. Vage oder mehrdeutige Formulierungen sollten unbedingt vermieden werden. Am besten experimentiert man mit verschiedenen Formulierungen, um herauszufinden, welche Art von Ergebnissen man erhält. Besonders effektiv sind englische Anweisungen. Natürlich kann für die Erstellung eines solchen Prompts auch eine andere KI, nämlich ChatGPT verwendet werden.

Folgende Punkte sollten unbedingt in einem guten Prompt enthalten sein:

Subjekt: Was soll überhaupt dargestellt werden? Was ist im Vordergrund zu sehen? z.B. Personen, Tierart, Charakter, Ort, Gegenstand

Details: Welche Kleidung soll die abgebildete Person tragen? Welche Accessoires soll sie besitzen? z.B. kurzer, scharzer Mantel, kurze, lange, blonde Haare etc.

Medium/Technik: in welchem Stil soll das Bild erstellt werden? z.B. fotorealistisch, Ölgemälde, Aquarell, Bleistiftzeichnung, Illustration oder Comic-Stil

Umgebung: Was befindet sich im Hintergrund? Innenraum, Wald, Auto usw.

Licht: Wie soll die Beleuchtung sein? Tageslicht, weich, Neon, Studiobeleuchtung, Nacht

Farbgebung: Gibt es einen gewünschten Filter? z.B. schwarz/weiß, gesättigt, monochromatisch

Stimmung: Wie soll das Bild wirken? z.B. friedlich, gruselig, dramatisch

Komposition: Wie ist die Person im Bild angeordnet? z.B. goldener Schnitt, zentral etc.

Perspektive: Wie wird die generierte Person dargestellt? z.B. Porträt, Vogelperspektive, Ganzkörperbild, Close-up etc.

Beispiel für einen schlechten Prompt

Anhand dieses Beispiels ist erkennbar, dass bei einem schlechten “Standard-Prompt” auch nur ein Standard-Bild dabei herauskommt. Bei der Eingabe “ein Hund” wird irgendein Porträtbild eines Hundes generiert, der zum Teil sogar recht böse blickt. Es gibt kaum einen Hintergrund und die Bilder wirken allgemein nicht besonders ansprechend.

KI-Bildgeneratoren
Screenshot: Bing Image Creator

Beispiel für einen guten Prompt

Viel bessere Ergebnisse bekommt man, wenn man dem Prompt zusätzliche Informationen hinzufügt. In meinem Beispiel von oben habe ich nun noch zusätzliche Informationen zum Hintergrund, zur Situationen, zur Beleuchtung und zur Kameraperspektive ergänzt.

Der Prompt lautet jetzt: “ein Hund spielt in einem schönen Garten, Ganzkörperansicht, angenehmes Licht, der Hund blickt direkt in die Kamera, verspielt, Sonnenschein”.

Und siehe da: Sofort sind die Ergebnisse um Welten besser und sehr ansehnlich.

KI-Bildgeneratoren
Screenshot: Bing Image Creator

Dieses Beispiel eines Prompts der Bild-KI leonardo.ai zeigt, worauf geachtet werden sollte, um ein perfektes Ergebnis zu erreichen.

KI-Bildgeneratoren
Screenshot: https://app.leonardo.ai/

Das unglaublich realistische Ergebnisbild zeigt, zu welchen atemberaubenden Bildern die Bild-KI mittlerweile schon in der Lage sind. Eine tolle Hilfestellung für die Erstellung eines richtig guten Prompts bietet der “Bild-Promptgenerator” von ki-im-alltag.de.

Was sind die empfehlenswertesten KI-Bildgeneratoren?

Ich persönlich habe bereits viele verschiedene Anbieter von KI-Bildgeneratoren getestet. Meine Favoriten sind Leonardo.ai, Midjourney, DALL-E, Adobe Firefly, Microsoft Bing Image Creator und Fooocus. Letzter ist eine Bild-KI, die lokal auf dem eigenen PC funktioniert, kostenlos und unbegrenzt nutzbar ist. Eine Anleitung dafür gibt es hier.

Da die verschiedenen Bildgeneratoren teilweise recht unterschiedliche Ergebnisse liefern, lohnt es sich sie alle auszuprobieren und zu vergleichen. In diesem Blog-Artikel von KI-im-Alltag werden die 8 besten Bildgeneratoren übersichtlich beschrieben und getestest.

Wer KI-Bildgeneratoren auch datenschutzkonform im Unterricht mit Schüler*innen nutzten, will, verwendet dafür am besten die kostenlosen KI-Tools von Fobizz.

Fazit zu KI-Bildgeneratoren

KI ist und bleibt eine faszinierende Angelegenheit. Nie zuvor war es so einfach, sich mithilfe einiger Prompts fantastische Bilder generieren zu lassen, die genau den eigenen Vorstellungen entsprechen. Die Funktionsweise von KI-Bildgeneratoren ist eine faszinierende Verschmelzung von künstlicher Intelligenz und Kreativität.

Von der Generierung realistischer Bilder bis hin zur Einhaltung von Lizenzbestimmungen – es gibt viele Aspekte, die berücksichtigt werden müssen. Die Technologie bietet die Möglichkeit, erstaunliche künstlerische Werke zu schaffen, aber auch Herausforderungen in Bezug auf Urheberrecht und ethische Verantwortung. Letztlich werden KI-Bildgeneratoren unseren Blick auf Kunst und Kreativität weiter verändern, während wir uns in eine Zukunft bewegen, in der Mensch und Maschine auf immer engere Weise miteinander interagieren.