Es war zweifelsohne ein genialer Schachzug von Midjourney, den Bildgenerierungsprozess über den Discord-Server laufen zu lassen, also: Alles öffentlich zu machen … das hat verschiedene positive Effekte:
Erstens, jeder User schaut anderen Usern über die Schulter, hier findet nolens volens ein Lernprozess statt – man muss sich das Training zum „Prompt Engineering“ gar nicht explizit vornehmen, es passiert einfach. Und, zweitens, man bekommt so eine Menge Inspiration; ja, da gibt es zweifellos eine große Überschneidung zum ersten Punkt, aber es sind doch zwei unterschiedliche Punkte.
Drittens, es ist ein bißchen wie „Big Brother“, ein bißchen wie Twitch und alle vergleichbaren Kanäle, wo „Community“ entsteht: Dabei schauen wir einander zu, wie wir unsere Ideen und Phantasien in Bilder gießen möchten … und wie das manchmal gelingt, und manchmal eben nicht. Und gleichzeitig erleben wir menschliche Kreativität „in Echtzeit“, es ist wie das Gehirn beziehungsweise Kreativität unter dem Mikroskop: Man kann ja sehr gut verfolgen, wie Nutzer ein Prompt absenden, und dann sukzessive eben diesen Prompt variieren, weiterentwickeln oder gar völlig neue Bildideen generieren für etwas, das sie ausdrücken möchte. Faszinierend.
Wir lernen auch etwas darüber, was es bedeutet, präzise und eindeutig zu kommunizieren. Wir erleben just in Interaktion mit einem KI-Algorithmus, wie vieldeutig Sprache ist oder wie entscheidend Satzkonstruktionen sind, um Tätigkeiten sehr präzise genau einem Subjekt zuzuordnen. Und mit ein bißchen Glück sensibilisiert das auch für die zwischenmenschliche Kommunikation.
Ich wollte kürzlich ein Bild generieren, wo dargestellt wird, dass diese KI mühelos endlosen Text produziert. Eine Idee: Buchstaben regnen von der Decke (oder: vom Himmel) herunter. Der Prompt: ”A lot of colourful letters from the entire ABC are raining down in an office where an office worker sits at the desk, bright atmosphere”. Das Ergebnis:
PROMPT: A lot of colourful letters from the entire ABC are raining down in an office where an office worker sits at the desk, bright atmosphere
Natürlich, letter kann im Englischen eben „Buchstabe“, aber eben AUCH „Brief“ bedeuten. Na gut, dann nutzen wir eben einen präziseren Begriff, der eben NUR „Buchstabe“ bedeutet: „Character“. Der Prompt: “ A lot of colourful characters are raining down in an office where an office worker sits at the desk, bright atmosphere”. Das Ergebnis:
PROMPT: A lot of colourful characters are raining down in an office where an office worker sits at the desk, bright atmosphere
Auch nicht so toll, wie man schnell feststellen kann. Midjourney generiert sein Bild vor allem um den Begriff „RAIN“. Nun könnte man dieses „herunterregnen“ von Buchstaben umschreiben … aber ich habe zunächst einmal die Bildidee variiert (auch eine Strategie, wenn man nicht weiterkommt in Midjourney). Die Idee: Einen Drucker, der endlos Papier bedruckt, ganz wie bei den alten Tintenstrahldruckern, die auf seitlich gelochtem Papier endlos gedruckt haben. Der Prompt dazu: “Photo of a printer that produces an endless paper queue, comic style”. Das Ergebnis:
PROMPT: Photo of a printer that produces an endless paper queue, comic style
Ups, auch nicht das, was ich wollte. Midjourney entwickelt das generierte Bild vor allem um den Begriff „queue“, und damit assoziiert MIdjourney offenbar vor allem „Menschenschlangen“. Man muss oft schon ein bißchen schmunzeln über die Bilder, die Midjourney auswirft. Und manchmal machen diese Bilder eben auch transparent, wie wir Sprache nutzen, welche Bilder / Begriffe wir mit bestimmten Wörtern verbinden beziehungsweise wie wir Wörter hauptsächlich nutzen.
Was natürlich auch immer wieder zum Schmunzeln bringt: Wenn Bildelemente am Ende keinen Sinn machen in der Gesamtschau. Hier beispielsweise weist das Bild eine ganz und gar eigentümliche Anatomie der beiden Hauptfiguren auf … abgesehen davon, dass der Promptbestandteil „long blonde hair“ auf die Patientin ebenso wie auf den männlichen Arzt angewandt wird (Das Bild ist übrigens nicht von mir, ich bin darüber im Discord-Kanal gestolpert, sieht oben ;- )
PROMPT: young podiatrist with long blonde hair treating a patients feet, grey leather coated dentist chair, cinematic
Wo ich mir etwas Sorgen gemacht habe: Ich wollte Fotos mit unterschiedlichen Gesichtsausdrücken, also „feelings“, „emotions“. Egal ob man einen Prompt nutzt wie ”Photos of people with different expressions like anger, joy, disappointment, ecstasy, sadness, worry” oder ”Illustration of different feeling”, dann erhält man immer Fotos mit Wut, Weinen, Verzweiflung … kein einziges Photo mit positivem Gesichtsausdruck. Erst der Begriff „positive feelings“ sorgt dafür, dass die Gesichter freundlich werden. „Feelings“, „emotions“ ist definitiv nicht positiv assoziiert bei Midjourney.
PROMPT: Photos of people with different expressions like anger, joy, disappointment, ecstasy, sadness, worry
Was natürlich unglaublich faszinierend ist bei Midjourney: Man bekommt IMMER ein Bild, egal was man eingibt. Wenn mir jemand sagt, ich solle mal etwas malen zum Begriff „music vibrations“, da würde ich mich fragen, ob mein Gegenüber auf LSD wäre, oder auch ob mir das vielleicht helfen würde beim Malen. Midjourney ist ein MACHER, da gibt es nach einer Minute ein Ergebnis, egal welchen Prompt man da reinhämmert. Die perfekte Stimmungsmaschine … und darum mache ich bei mir zu Hause demnächst eine KI Party. Ich berichte …
PROMPT: music vibrations
Und zum Schluss: Wie hoch ist das Risko, dass Midjourney und vergleichbare Generative-AI-Programme Graphikdesigner:innen und Kreative ersetzen werden?
Schauen Sie auch mal auf meinen Blog zur Frage: Brauchen wir Prompt Engineers? ODER: Wie lange noch?