Summary of A16z Podcast Episode: Boosting Creativity: Prompt Engineering | a16z Podcast ft. Steph Smith
— Description —
Discover the fascinating world of prompt engineering with the DALL-E2 Prompt Book Explore the artistry of text imaging and unleash your creativity by using images as prompts Learn how AI models like Midjourney, DALL-E 2, and Stable Diffusion can revolutionize your visual effects
Dive into the black box of AI and uncover the potential for AI-generated content to surpass traditional entertainment Whether youre a beginner or an expert, this book will inspire you to explore new career opportunities in the ever-evolving AI industry.

Boosting Creativity: Prompt Engineering | a16z Podcast ft. Steph Smith
Die zentralen Thesen
Einführung
DALL-E 2 Prompt Book
Parallele Fähigkeiten im Prompt Engineering
80/20 Aufforderung
Neue Wege der Aufforderung
Ziehen Sie den KI-Spielautomaten
Vergleich von Modellen
Gewünschte Funktionen
Lernen mit KI
Praktische Anwendungsfälle
Ein Top-1-Prompt-Ingenieur
Die beliebtesten Bilder
Die zentralen Thesen
- Das DALL-E2 Prompt Book wurde als Sammlung cooler Beispiele und Begriffe erstellt, die zum Erstellen erstaunlicher visueller Effekte mit DALL-E 2 (dem Text-zu-Bild-Modell von OpenAI) verwendet werden.
- Prompt Engineering ist ein neues Gebiet, und noch kann niemand definitiv sagen, dass er ein Experte ist
- Es gibt eine Debatte darüber, ob in der Textdarstellung Kunst steckt, aber Guy ist davon überzeugt, dass es etwas mit der Entdeckung eines Bildes zu tun hat, das erst existiert, wenn es sich in Worten manifestiert
- Guy schlägt vor, dass jemand, der seine Eingabeaufforderungskompetenzen verbessern möchte, den Alt-Text auf verschiedenen Bildern online überprüfen könnte, um zu sehen, wie Dinge beschrieben werden und wie eine KI eine bestimmte Eingabeaufforderung interpretieren könnte
-
Eine der bedeutendsten Entwicklungen bei Aufforderungstools ist die Möglichkeit, mit Bildern aufzufordern
- Hier geht es nicht einfach um das Kombinieren von Bildern und Wörtern wie in Photoshop, sondern um das Generieren von Eingabeaufforderungen basierend auf Bildern und ihren Funktionen
- Die Verwendung von Bildern als Anregung kann zu überraschenden und unerwarteten Ergebnissen führen, die möglicherweise schwer zu kontrollieren sind, aber auch neue und interessante Möglichkeiten für Kreativität bieten können
-
KI-Modelle sind wie eine Blackbox, was es schwierig macht, jedes kleine Teil, das in die Eingabe und Ausgabe einfließt, zu optimieren oder zu verstehen
- Die Eingabe derselben Eingabeaufforderung in ein KI-Modell führt nicht unbedingt zur gleichen Ausgabe, da sie von einer zufälligen Rauschwolke ausgeht
- Manche Leute tappen in die Falle, immer wieder Eingabeaufforderungen zu generieren, in der Hoffnung, bessere Ergebnisse zu erzielen, wie zum Beispiel das Ziehen eines KI-Spielautomaten
-
Drei beliebte Modelle: Midjourney, DALL-E 2 und Stable Diffusion
- Die Möglichkeit zur Eingabeaufforderung innerhalb jedes Modells ähnelt dem Wechsel zwischen Excel und Google Sheets
- Unterschiede zwischen den Modellen ähneln dem Erlernen verschiedener Sprachen, mit ähnlichen Prinzipien und einigen Variationen in neueren Modellen
- Bildende Kunst drückt Dinge aus, die sich nicht in Worte fassen lassen, und das Ziel besteht darin, das Unerklärliche und Undefinierbare freizusetzen
- Das Lernen mit KI-Tools kann zu persönlichen Erfahrungen führen, die dabei helfen, Dinge ans Licht zu bringen, die vorher nie in Betracht gezogen wurden
- Der Einsatz von KI-Tools hat zwei Möglichkeiten: Abwarten, was das Modell zeigt, oder Visualisieren im Kopf und Ablehnen, was nicht funktioniert
-
Es besteht das Potenzial, dass KI-generierte Inhalte traditionelle Unterhaltungsformen wie Netflix oder Instagram übertreffen
- KI-Tools könnten möglicherweise in den 3D-Druck integriert werden, um reale Produkte zu erstellen
-
Die Entwicklung grundlegender Tools in der KI-Branche könnte einen Anreiz bieten, schnelles Engineering zu einer Fähigkeit zu machen, die jeder gut beherrschen kann
- Möglicherweise besteht auch Bedarf an Personen, die sich auf „geheime Eingabeaufforderungen“ spezialisiert haben, beispielsweise Texter, die der KI eine Ebene von Eingabeaufforderungen hinzufügen, die Verbraucher nicht sehen
- Mit dem Wachstum der KI-Branche wird es eine Reihe von Karrieren geben, die noch nicht einmal vorstellbar sind
Einführung
-
In der neuesten Folge des a16z-Podcasts setzt sich Moderator Steph Smith mit Guy Parsons (@GuyP) zusammen, um über die wachsende Bedeutung von Prompt Engineering im Zeitalter der KI zu diskutieren. Da KI das moderne Leben und den Arbeitsmarkt weiterhin verändert, entstehen neben der Technologie auch kreative Rollen wie Prompt Engineering
- Schauen Sie sich das DALL-E 2 Prompt Book von Guy Parsons an
- Moderator: Steph Smith (@stephsmithio)
DALL-E 2 Prompt Book
-
Das DALL-E2 Prompt Book wurde als Sammlung cooler Beispiele und Begriffe erstellt, die verwendet werden, um mit DALL-E 2, dem Text-zu-Bild-Modell von OpenAI, erstaunliche visuelle Effekte zu erzeugen
- Das Prompt Book war im Wesentlichen ein Folienstapel mit einer Länge von 8.100 Folien
- Guy hat das Prompt Book online als Ausgangspunkt für die Leute geteilt, um zu erkennen, wozu diese Tools in der Lage sind
-
Guy schätzt, dass er ein paar hundert Stunden damit verbracht hat, die Idee des Promptings in Midjourney, DALL-E 2 und Stable Diffusion zu meistern, aber er würde nicht sagen, dass er ein Meister ist
- Einige Leute haben mit diesen Tools Tausende oder sogar Hunderttausende Eingabeaufforderungen erstellt
- Die Fähigkeiten dieser Tools haben sich in den letzten sechs Monaten erheblich weiterentwickelt
- Prompt Engineering ist ein neues Gebiet, und noch kann niemand definitiv sagen, dass er ein Experte ist
Parallele Fähigkeiten im Prompt Engineering
-
Steph fragt, ob es im Prompt Engineering parallele Fähigkeiten gibt, die anderen Fähigkeiten wie Programmieren, effektivem Geschichtenerzählen und der Verarbeitung von Zahlen in Excel ähneln
- Guy erwähnt eine Ära, in der es eine Kategorie von Leuten gab, die gut darin waren, Sachen zu googeln und die Fähigkeit hatten, spezifische Suchanfragen zu verwenden, um Informationen zu finden
-
Es gibt eine Debatte darüber, ob in der Textdarstellung Kunst steckt, aber Guy glaubt, dass es etwas mit der Entdeckung eines Bildes zu tun hat, das erst existiert, wenn es sich durch Worte manifestiert.
- Steph spricht von der Fülle an Informationen im Internet und davon, dass es eine Fähigkeit ist, zu lernen, wie man mithilfe von Tools wie Subreddit-Statistiken, Ahrefs und anderen Datensätzen analysiert und ans Licht bringt, was andere interessant finden.
80/20 Aufforderung
-
Steph fragt Guy, ob es bestimmte Erkenntnisse oder einen 80/20-Ansatz gibt, um ein guter Prompt-Ingenieur zu werden
- Guy erklärt, dass der beste Weg, um zu verstehen, wie sie funktionieren, wenn man mit diesen Tools noch nicht vertraut ist, darin besteht, etwas so zu beschreiben, als ob es bereits existierte, etwa ein Bild in einer herunterladbaren ClipArt-Bibliothek oder einer Fotogalerie
- Er betont, wie wichtig es ist, natürliche Sprache zu verwenden, die die Art von Beschreibungen nachahmt, die Sie in diesen Kontexten sehen würden, da dies den Tools ein Gefühl dafür gibt, wonach Sie suchen und welche Eingabeaufforderungen gut funktionieren
-
Guy weist darauf hin, dass KI-Tools im Allgemeinen schlecht darin sind, Bilder detailliert zu beschreiben (z. B. was Menschen tragen), aber gut darin, das allgemeine Thema oder Konzept des Bildes zu beschreiben
- Steph weist darauf hin, dass diese KIs auf diese Weise trainiert wurden, indem Alt-Text aus Online-Bildern verwendet und als Deskriptoren verwendet wurde
- Guy schlägt vor, dass jemand, der seine Eingabeaufforderungskompetenzen verbessern möchte, den Alt-Text auf verschiedenen Bildern online überprüfen könnte, um zu sehen, wie Dinge beschrieben werden und wie eine KI eine bestimmte Eingabeaufforderung interpretieren könnte
-
Steph weist darauf hin, dass der erforderliche Detaillierungsgrad einer Eingabeaufforderung überraschend sein kann und dass es leicht ist, die Anzahl der Iterationen zu unterschätzen, die aus einer scheinbar einfachen Eingabeaufforderung resultieren können
- Guy stimmt zu und fügt hinzu, dass längere Aufforderungen tendenziell einen geringeren Ertrag bringen und dass sein Aufforderungsbuch viele verschiedene Möglichkeiten zur Beschreibung einer Aufnahme enthält (z. B. Kamerawinkel, Zeitraum, Kunstfertigkeit, Künstler)
- Steph fragt nach der Verwendung der Arbeit bestimmter Künstler, um neue Bilder zu trainieren, und Guy räumt ein, dass dieser Ansatz kontrovers diskutiert wird
Neue Wege der Aufforderung
- Es entstehen und entwickeln sich ständig neue Möglichkeiten der Aufforderung, die den Benutzern mehr Tools und Optionen bieten, die sie in ihren kreativen Projekten nutzen können
-
Eine der bedeutendsten Entwicklungen bei Aufforderungstools ist die Möglichkeit, mit Bildern anzusprechen.
- Hier geht es nicht einfach um das Kombinieren von Bildern und Wörtern wie in Photoshop, sondern um das Generieren von Eingabeaufforderungen basierend auf Bildern und ihren Funktionen
- Die Verwendung von Bildern als Anregung kann zu überraschenden und unerwarteten Ergebnissen führen, die möglicherweise schwer zu kontrollieren sind, aber auch neue und interessante Möglichkeiten für die Kreativität bieten
- Zum Beispiel kann man abstrakte Designs mit Markenfarben oder persönlichen Fotos erstellen und diese Basislinie dann mit benutzerdefinierten Eingabeaufforderungen multiplizieren, um eine einzigartige visuelle Basis zu schaffen
-
Eine weitere wichtige Entwicklung in der Eingabeaufforderung ist der Aufstieg der Selfie-Kultur, die viele KI-gestützte Tools hervorgebracht hat, die Benutzern dabei helfen, mehr Selfies und Profilbilder basierend auf ihren Funktionen zu erstellen
- Im Bild-zu-Bild-Bereich machen einige Startups interessante Dinge mit der Bildgenerierung, indem sie es Benutzern ermöglichen, Kernbilder einzugeben und dann unendlich viele Versionen dieser Bilder basierend auf bestimmten Modifikatoren zu generieren
-
Durch den Zugriff auf Eingabeaufforderungsbibliotheken und die Möglichkeit, Bilder einzugeben, müssen Benutzer bei der Verwendung dieser Tools nicht mehr bei Null anfangen
- Sie verfügen über eine Ausgangsbasis, die mit spezifischen Eingabeaufforderungen angepasst werden kann, um die gewünschte Ausgabe zu erzielen
- Die Steuerung der Ausgabe kann jedoch eine Herausforderung sein, da Benutzer auf KI angewiesen sind, um ihre Absichten zu verstehen und die gewünschte Ausgabe zu generieren.
- Es braucht Zeit und Übung, um zu lernen, wie man Eingabeaufforderungen verfeinert, um einen höheren Durchsatz an gewünschten Bildern im Vergleich zu unerwünschten Bildern zu erzielen
Ziehen Sie den KI-Spielautomaten
-
KI-Modelle sind wie eine Blackbox, was es schwierig macht, jedes kleine Teil, das in die Eingabe und Ausgabe einfließt, zu optimieren oder zu verstehen
- Die Eingabe derselben Eingabeaufforderung in ein KI-Modell führt nicht unbedingt zur gleichen Ausgabe, da sie von einer zufälligen Rauschwolke ausgeht
- Beim Testen verschiedener Eingabeaufforderungen ist es schwierig zu unterscheiden, ob das Ergebnis gut oder einfach nur Glück ist
- Manche Leute tappen in die Falle, immer wieder Eingabeaufforderungen zu generieren, in der Hoffnung, bessere Ergebnisse zu erzielen, wie zum Beispiel das Ziehen eines KI-Spielautomaten
- Beweise und andere Communities können dabei helfen, aus der Arbeit anderer Menschen zu lernen und dazu anzuregen, besser zu verstehen, was funktioniert und was nicht
- Es können negative Aufforderungen und Störungen auftreten, wie zum Beispiel der berüchtigte Handfehler bei der Erstellung von Personenbildern
- Die Einschränkungen von KI-Modellen bestehen darin, dass sie bei bestimmten Aufgaben Schwierigkeiten haben und es immer noch Fehler in der Matrix gibt
-
Einige Modelle, wie DALL-E 2, haben Probleme damit, zu verstehen, dass sie Dinge in einem Quadrat zeichnen, aber Benutzer können ein Randbild hochladen, um das Denken innerhalb der Box zu erzwingen
- Andere Modelle wie Midjourney haben das Kompositionsproblem gelöst, indem sie die Möglichkeiten und Grenzen der KI und des prompten Engineering-Prozesses verstanden haben
Vergleich von Modellen
-
Drei beliebte Modelle: Midjourney, DALL-E 2 und Stable Diffusion
- Die Möglichkeit zur Eingabeaufforderung innerhalb jedes Modells ähnelt dem Wechsel zwischen Excel und Google Sheets
- Unterschiede zwischen den Modellen ähneln dem Erlernen verschiedener Sprachen, mit ähnlichen Prinzipien und einigen Variationen in neueren Modellen
- Midjourney übernimmt die schwere Arbeit, um eine qualitativ hochwertige Ausgabe zu erstellen, während Stable Diffusion über einen größeren Datensatz verfügt
-
Auf Basis der Modelle werden Feinabstimmungen und kreative Entscheidungen getroffen, um diese zu optimieren
- Wie beim Fahren verschiedener Autos reagieren einige Modelle schneller als andere
- Manchmal ist ein anderes Werkzeug erforderlich, um die endgültige Verfeinerung eines Bildes zu erreichen, beispielsweise Facetune oder Inpainting/Outpainting
-
Die Fülle an rohen, aber unvollkommenen Materialien schafft Möglichkeiten für neue Werkzeuge und Verbesserungen bestehender
- Einige Effekte, wie zum Beispiel ein Vintage-Film-Look, lassen sich einfacher mit anderen Tools wie iPhone-Apps erzielen
Gewünschte Funktionen
- Potenzial für die Entwicklung weiterer Modelle mithilfe der stabilen Open-Source-Diffusion
- Die Herausforderung und Chance besteht darin, über das Textfeld hinauszugehen und etwas zu schaffen, das benutzerfreundlicher und inspirierender ist und der Denkweise der Menschen entspricht
- Designer haben es schwer, wenn Kunden nicht erklären können, was sie wollen, und KI-Modelle sind in der gleichen Lage
- Möglichkeit einer Konversationsschnittstelle für die KI-Generierung, wobei die Generierung schnell genug erfolgt, um mehrere Optionen und Richtungen anzuzeigen
- Das Prompt-Buch half beim Verständnis der metaphysischen Malerei und des Chromcodes, aber einige andere Ästhetiken und Stile haben keinen Namen
- Bildende Kunst drückt Dinge aus, die nicht in Worte gefasst werden können, und das Ziel besteht darin, das Unerklärliche und Undefinierbare freizusetzen
- Ein besseres Onboarding-Erlebnis, das neue Souffleure anleitet, wie verschiedene Prompts zusammenpassen können, wäre nützlich
- Möglichkeit, eine ZIP-Datei eines Moodboards zu erstellen und die KI für die Arbeit mit diesem bestimmten Konzept zu trainieren
- Mithilfe von Einbettungstricks kann die KI mit Stil statt nur mit Gesichtern trainiert werden
- Interesse an einer Version des Produkts, bei der Benutzer Markenbilder oder -farben hochladen und mit KI iterieren können, um Bilder zu erstellen, die zu ihrer Marke passen
Lernen mit KI
- Das Lernen mit KI-Tools kann zu persönlichen Erfahrungen führen, die dabei helfen, Dinge ans Licht zu bringen, die vorher nie in Betracht gezogen wurden
- Der Einsatz von KI-Tools hat zwei Möglichkeiten: Abwarten, was das Modell zeigt, oder Visualisieren im Kopf und Ablehnen, was nicht funktioniert
- Wenn Sie dem KI-Modell erlauben, Sie dorthin zu bringen, wo es hin möchte, kann dies zu einem völlig anderen und unerwarteten Ergebnis führen
-
Das Variationstool in DALL-E 2 kann vier weitere Bilder generieren, die dem Originalbild ähneln
- Die wiederholte Verwendung des Variationstools kann zu einer psychedelischen, traumhaften visuellen Reise führen
Praktische Anwendungsfälle
-
KI-Tools haben praktische Anwendungen, die über die bloße Schaffung interessanter Kunst hinausgehen
- Einige Beispiele umfassen die Verwendung generierter Bilder zum Teilen von Blogbeiträgen oder das Entwerfen von Produkten wie Turnschuhen
- Einige Anwendungen von KI-Tools werden aus ethischen und rechtlichen Gründen möglicherweise nicht ausdrücklich beworben
-
Es besteht das Potenzial, dass KI-generierte Inhalte traditionelle Unterhaltungsformen wie Netflix oder Instagram übertreffen
- KI-Tools könnten möglicherweise in den 3D-Druck integriert werden, um reale Produkte zu erstellen
- Es gibt eine Debatte über den Wert von KI-generierten Inhalten im Vergleich zu traditionellen Kunst- und Designformen, aber es gibt viele verschiedene Ebenen, auf denen wir uns im Alltag mit visuellen Komponenten beschäftigen
Ein Top-1-Prompt-Ingenieur
-
Die Idee eines „prompten Ingenieurs“ kann möglicherweise nur von wenigen Personen beherrscht werden, was sie auf diesem Gebiet wertvoller macht
- Andererseits kann jeder mit fortschreitender Technologie einigermaßen gut auffordern lernen, was es zu einer grundlegenden Fähigkeit macht, die dem Lesen und Schreiben ähnelt
-
Die Entwicklung grundlegender Tools in der KI-Branche kann einen Anreiz schaffen, schnelles Engineering zu einer Fähigkeit zu machen, die jeder gut beherrschen kann
- Es wird jedoch immer noch Leute geben, die sich auf schnelles Engineering spezialisiert haben und die Grenzen des Möglichen ausloten, ähnlich wie diejenigen, die sich auf das Schnitzen von Holz oder die Animation von Haaren spezialisiert haben
-
Möglicherweise besteht auch Bedarf an Leuten, die sich auf „geheime Eingabeaufforderungen“ spezialisiert haben, wie zum Beispiel Texter, die der KI eine Ebene von Eingabeaufforderungen hinzufügen, die Verbraucher nicht sehen.
- Genau wie in der Musik- oder Filmindustrie wird es auch in der KI-Branche wahrscheinlich eine Reihe von Nischenberufen geben, wie zum Beispiel Prompt-Ingenieure, die sich auf Haare oder Hände spezialisiert haben, oder SaaS-Unternehmen für Unternehmen
- Das Konzept eines „10x-Prompt-Ingenieurs“ könnte in der Technologiewelt zu einer gängigen Metapher werden, ähnlich der Idee eines „10x-Aufnahmeingenieurs“ in der Musikindustrie
- Da die KI-Branche wächst, wird es eine Reihe von Karrieren geben, die man sich noch nicht einmal vorstellen kann
Die beliebtesten Bilder
- Steph und Guy diskutieren über die Idee der beliebtesten online geteilten Kunst oder Bilder
-
Steph sagt, dass mir als jemand, der viel Zeit auf Twitter verbringt, Memes als das beliebteste Bild in den Sinn kommen
- Sie erklärt, dass Memes eine Grundform von Bildern sind, die aus einem Bild mit großgeschriebenem Text darauf bestehen
- Was Menschen anspricht, ist nicht unbedingt die raffinierteste oder extravaganteste Art von Bildern