Es war zweifelsohne ein genialer Schachzug von Midjourney, den Bildgenerierungsprozess über den Discord-Server laufen zu lassen, also: Alles öffentlich zu machen … das hat verschiedene positive Effekte:

Erstens, jeder User schaut anderen Usern über die Schulter, hier findet nolens volens ein Lernprozess statt – man muss sich das Training zum „Prompt Engineering“ gar nicht explizit vornehmen, es passiert einfach. Und, zweitens, man bekommt so eine Menge Inspiration; ja, da gibt es zweifellos eine große Überschneidung zum ersten Punkt, aber es sind doch zwei unterschiedliche Punkte.

Drittens, es ist ein bißchen wie „Big Brother“, ein bißchen wie Twitch und alle vergleichbaren Kanäle, wo „Community“ entsteht: Dabei schauen wir einander zu, wie wir unsere Ideen und Phantasien in Bilder gießen möchten … und wie das manchmal gelingt, und manchmal eben nicht. Und gleichzeitig erleben wir menschliche Kreativität „in Echtzeit“, es ist wie das Gehirn beziehungsweise Kreativität unter dem Mikroskop: Man kann ja sehr gut verfolgen, wie Nutzer ein Prompt absenden, und dann sukzessive eben diesen Prompt variieren, weiterentwickeln oder gar völlig neue Bildideen generieren für etwas, das sie ausdrücken möchte. Faszinierend.

Wir lernen auch etwas darüber, was es bedeutet, präzise und eindeutig zu kommunizieren. Wir erleben just in Interaktion mit einem KI-Algorithmus, wie vieldeutig Sprache ist oder wie entscheidend Satzkonstruktionen sind, um Tätigkeiten sehr präzise genau einem Subjekt zuzuordnen. Und mit ein bißchen Glück sensibilisiert das auch für die zwischenmenschliche Kommunikation.

Ich wollte kürzlich ein Bild generieren, wo dargestellt wird, dass diese KI mühelos endlosen Text produziert. Eine Idee: Buchstaben regnen von der Decke (oder: vom Himmel) herunter. Der Prompt: ”A lot of colourful letters from the entire ABC are raining down in an office where an office worker sits at the desk, bright atmosphere”. Das Ergebnis:

PROMPT: A lot of colourful letters from the entire ABC are raining down in an office where an office worker sits at the desk, bright atmosphere

Natürlich, letter kann im Englischen eben „Buchstabe“, aber eben AUCH „Brief“ bedeuten. Na gut, dann nutzen wir eben einen präziseren Begriff, der eben NUR „Buchstabe“ bedeutet: „Character“. Der Prompt: “ A lot of colourful characters are raining down in an office where an office worker sits at the desk, bright atmosphere”. Das Ergebnis:

PROMPT: A lot of colourful characters are raining down in an office where an office worker sits at the desk, bright atmosphere

Auch nicht so toll, wie man schnell feststellen kann. Midjourney generiert sein Bild vor allem um den Begriff „RAIN“. Nun könnte man dieses „herunterregnen“ von Buchstaben umschreiben … aber ich habe zunächst einmal die Bildidee variiert (auch eine Strategie, wenn man nicht weiterkommt in Midjourney). Die Idee: Einen Drucker, der endlos Papier bedruckt, ganz wie bei den alten Tintenstrahldruckern, die auf seitlich gelochtem Papier endlos gedruckt haben. Der Prompt dazu: “Photo of a printer that produces an endless paper queue, comic style”. Das Ergebnis:

PROMPT: Photo of a printer that produces an endless paper queue, comic style

Ups, auch nicht das, was ich wollte. Midjourney entwickelt das generierte Bild vor allem um den Begriff „queue“, und damit assoziiert MIdjourney offenbar vor allem „Menschenschlangen“. Man muss oft schon ein bißchen schmunzeln über die Bilder, die Midjourney auswirft. Und manchmal machen diese Bilder eben auch transparent, wie wir Sprache nutzen, welche Bilder / Begriffe wir mit bestimmten Wörtern verbinden beziehungsweise wie wir Wörter hauptsächlich nutzen.

Was natürlich auch immer wieder zum Schmunzeln bringt: Wenn Bildelemente am Ende keinen Sinn machen in der Gesamtschau. Hier beispielsweise weist das Bild eine ganz und gar eigentümliche Anatomie der beiden Hauptfiguren auf … abgesehen davon, dass der Promptbestandteil „long blonde hair“ auf die Patientin ebenso wie auf den männlichen Arzt angewandt wird (Das Bild ist übrigens nicht von mir, ich bin darüber im Discord-Kanal gestolpert, sieht oben ;- )

PROMPT: young podiatrist with long blonde hair treating a patients feet, grey leather coated dentist chair, cinematic

Wo ich mir etwas Sorgen gemacht habe: Ich wollte Fotos mit unterschiedlichen Gesichtsausdrücken, also „feelings“, „emotions“. Egal ob man einen Prompt nutzt wie ”Photos of people with different expressions like anger, joy, disappointment, ecstasy, sadness, worry” oder ”Illustration of different feeling”, dann erhält man immer Fotos mit Wut, Weinen, Verzweiflung … kein einziges Photo mit positivem Gesichtsausdruck. Erst der Begriff „positive feelings“ sorgt dafür, dass die Gesichter freundlich werden. „Feelings“, „emotions“ ist definitiv nicht positiv assoziiert bei Midjourney.

PROMPT: Photos of people with different expressions like anger, joy, disappointment, ecstasy, sadness, worry

Was natürlich unglaublich faszinierend ist bei Midjourney: Man bekommt IMMER ein Bild, egal was man eingibt. Wenn mir jemand sagt, ich solle mal etwas malen zum Begriff „music vibrations“, da würde ich mich fragen, ob mein Gegenüber auf LSD wäre, oder auch ob mir das vielleicht helfen würde beim Malen. Midjourney ist ein MACHER, da gibt es nach einer Minute ein Ergebnis, egal welchen Prompt man da reinhämmert. Die perfekte Stimmungsmaschine … und darum mache ich bei mir zu Hause demnächst eine KI Party. Ich berichte …

PROMPT: music vibrations

Und zum Schluss: Wie hoch ist das Risko, dass Midjourney und vergleichbare Generative-AI-Programme Graphikdesigner:innen und Kreative ersetzen werden?

Schauen Sie auch mal auf meinen Blog zur Frage: Brauchen wir Prompt Engineers? ODER: Wie lange noch?

Zum Weiterlesen

  • Tools & Tipps rund um Prompt Engineering für ChatGPT
  • „The Age of AI and Our Human Future“ – Buchkritik
  • Buchempfehlung: „Künstliche Intelligenz und der Sinn des Lebens“
  • Die KI-Revolution: Was geht schon? Was kommt bald?
  • The Technology Trap
  • Neues Wagen. Deutschlands digitale Zukunft zwischen den USA und China
  • AI-Superpowers. China, Silicon Valley und die Neue Weltordnung
  • Die „Theorie der digitalen Gesellschaft“ des Intellektuellen Armin Nassehi – Buchvorstellung?
  • “Reprogramming the American Dream” von Microsoft CTO Kevin Scott – Buchkritik
  • Superintelligenz
  • The Big Nine
  • Author

    Der Autor ist Manager in der Softwareindustrie mit internationaler Expertise: Prokurist bei einem der großen Beratungshäuser - Verantwortung für den Aufbau eines IT Entwicklungszentrums am Offshore-Standort Bangalore - Director M&A bei einem Softwarehaus in Berlin.