Summary of A16z Podcast Episode: Boosting Creativity: Prompt Engineering | a16z Podcast ft. Steph Smith
— Description —
Discover the fascinating world of prompt engineering with the DALL-E2 Prompt Book Explore the artistry of text imaging and unleash your creativity by using images as prompts Learn how AI models like Midjourney, DALL-E 2, and Stable Diffusion can revolutionize your visual effects
Dive into the black box of AI and uncover the potential for AI-generated content to surpass traditional entertainment Whether youre a beginner or an expert, this book will inspire you to explore new career opportunities in the ever-evolving AI industry.

Boosting Creativity: Prompt Engineering | a16z Podcast ft. Steph Smith
Conclusiones clave
Introducción
Libro rápido DALL-E 2
Habilidades paralelas en ingeniería rápida
80/20 indicaciones
Nuevas formas de incitar
Tirando de la máquina tragamonedas AI
Comparando modelos
Funciones solicitadas
Aprender con IA
Casos de uso prácticos
Un ingeniero rápido del 1% superior
Las imágenes más populares
Conclusiones clave
- El libro de indicaciones de DALL-E2 se creó como una colección de ejemplos y términos interesantes utilizados para crear efectos visuales sorprendentes utilizando DALL-E 2 (el modelo de texto a imagen de OpenAI).
- La ingeniería rápida es un campo nuevo y nadie puede decir definitivamente que es un experto todavía.
- Existe un debate sobre si hay algo de arte en las imágenes de texto, pero Guy cree que hay algo en descubrir una imagen que no ha existido hasta que se manifiesta a través de palabras.
- Guy sugiere que alguien que busque mejorar sus habilidades de indicaciones podría revisar el texto alternativo en diferentes imágenes en línea para ver cómo se describen las cosas y cómo una IA podría interpretar una indicación determinada.
-
Uno de los avances más significativos en las herramientas de indicaciones es la capacidad de indicar con imágenes.
- No se trata simplemente de combinar imágenes y palabras como en Photoshop, sino de generar indicaciones basadas en imágenes y sus características.
- El uso de imágenes como indicaciones puede generar resultados sorprendentes e inesperados que pueden ser difíciles de controlar, pero que también pueden ofrecer nuevas e interesantes oportunidades para la creatividad.
-
Los modelos de IA son como una caja negra, lo que dificulta afinar o comprender cada pequeña pieza que entra en la entrada y la salida.
- Introducir el mismo mensaje en un modelo de IA no necesariamente da como resultado el mismo resultado porque comienza a partir de una nube aleatoria de ruido.
- Algunas personas caen en la trampa de generar mensajes una y otra vez, con la esperanza de obtener mejores resultados, como tirar de una máquina tragamonedas con IA.
-
Tres modelos populares: Midjourney, DALL-E 2 y Stable Diffusion
- La capacidad de solicitar mensajes dentro de cada modelo es similar a cambiar entre Excel y Google Sheets.
- Las diferencias entre los modelos son como aprender diferentes idiomas, con principios similares y algunas variaciones en los modelos más nuevos.
- El arte visual expresa cosas que no se pueden expresar con palabras, y el objetivo es desatar lo inexplicable e indefinible.
- Aprender con herramientas de IA puede generar experiencias personales que ayuden a sacar a la luz cosas que nunca antes se habían considerado.
- El uso de herramientas de IA tiene dos modalidades: esperar a ver lo que muestra el modelo o visualizarlo en tu mente y rechazar lo que no funciona
-
Existe la posibilidad de que el contenido generado por IA supere las formas tradicionales de entretenimiento como Netflix o Instagram.
- Las herramientas de inteligencia artificial podrían integrarse con la impresión 3D para crear productos de la vida real
-
El desarrollo de herramientas fundamentales en la industria de la IA puede incentivar a hacer de la ingeniería rápida una habilidad que cualquiera pueda hacer bien.
- También puede ser necesario contar con personas que se especialicen en "indicaciones secretas", como redactores que agreguen una capa de indicaciones a la IA que los consumidores no ven.
- A medida que la industria de la IA crezca, habrá una variedad de carreras disponibles que aún ni siquiera se imaginan.
Introducción
-
En el último episodio del podcast a16z, la presentadora Steph Smith se sienta con Guy Parsons (@GuyP) para discutir la creciente importancia de la ingeniería rápida en la era de la IA. A medida que la IA continúa cambiando la vida moderna y el mercado laboral, están surgiendo roles creativos como la ingeniería rápida para trabajar junto con la tecnología.
- Consulte el libro rápido de DALL-E 2 de Guy Parsons
- Anfitrión: Steph Smith (@stephsmithio)
Libro rápido DALL-E 2
-
El libro de indicaciones de DALL-E2 se creó como una colección de ejemplos y términos interesantes utilizados para crear efectos visuales sorprendentes utilizando DALL-E 2, que es el modelo de conversión de texto a imagen de OpenAI.
- El Prompt Book era esencialmente una plataforma de diapositivas que creció hasta tener 8100 diapositivas.
- Guy compartió el Prompt Book en línea como punto de partida para que las personas se dieran cuenta del tipo de cosas que estas herramientas eran capaces de hacer.
-
Guy estima que ha pasado un par de cientos de horas dominando la idea de las indicaciones en Midjourney, DALL-E 2 y Stable Diffusion, pero no diría que es un maestro.
- Algunas personas han realizado miles o incluso cientos de miles de indicaciones utilizando estas herramientas.
- Las capacidades de estas herramientas han avanzado significativamente en los últimos seis meses
- La ingeniería rápida es un campo nuevo y nadie puede decir definitivamente que es un experto todavía.
Habilidades paralelas en ingeniería rápida
-
Steph pregunta si existe un conjunto de habilidades paralelo en ingeniería rápida que sea similar a otras habilidades como codificación, narración efectiva y procesamiento de números en Excel.
- Guy menciona una época en la que había una categoría de personas que eran buenas buscando en Google y tenían la capacidad de utilizar consultas de búsqueda específicas para encontrar información.
-
Existe un debate sobre si hay algo de arte en las imágenes de texto, pero Guy cree que hay algo en descubrir una imagen que no ha existido hasta que se manifiesta a través de palabras.
- Steph menciona la abundancia de información en línea y cómo es una habilidad aprender a analizar y sacar a la luz lo que otros encuentran interesante usando herramientas como estadísticas de subreddit, Ahrefs y otros conjuntos de datos.
80/20 indicaciones
-
Steph le pregunta a Guy si hay ciertos aprendizajes o un enfoque 80/20 para convertirse en un buen ingeniero rápido.
- Guy explica que cuando eres nuevo en el uso de estas herramientas, la mejor manera de entender cómo funcionan es describir algo como si ya existiera, como si fuera una imagen en una biblioteca de imágenes prediseñadas descargables o una galería de fotografías.
- Enfatiza la importancia de usar un lenguaje natural que imite el tipo de descripciones que verías en esos contextos, ya que esto le da a las herramientas una idea de lo que estás buscando y qué indicaciones funcionan bien.
-
Guy señala que las herramientas de IA generalmente no son buenas para describir imágenes con gran detalle (por ejemplo, lo que usan las personas), pero son buenas para describir el tema o concepto general de la imagen.
- Steph señala que así es como se entrenaron estas IA, utilizando texto alternativo de imágenes en línea y usándolos como descriptores.
- Guy sugiere que alguien que busque mejorar sus habilidades de indicaciones podría revisar el texto alternativo en diferentes imágenes en línea para ver cómo se describen las cosas y cómo una IA podría interpretar una indicación determinada.
-
Steph señala que el nivel de detalle requerido en un mensaje puede ser sorprendente y que es fácil subestimar la cantidad de iteraciones que pueden surgir de un mensaje aparentemente simple.
- Guy está de acuerdo y agrega que las indicaciones más largas tienden a tener rendimientos decrecientes y que su libro de indicaciones incluye muchas formas diferentes de describir una toma (por ejemplo, ángulo de cámara, período de tiempo, arte, artista).
- Steph pregunta sobre el uso del trabajo de artistas específicos para formar nuevas imágenes y Guy reconoce que existe cierta controversia en torno a ese enfoque.
Nuevas formas de incitar
- Nuevas formas de motivación están surgiendo y evolucionando todo el tiempo, ofreciendo más herramientas y opciones para que los usuarios aprovechen sus proyectos creativos.
-
Uno de los avances más significativos en las herramientas de indicaciones es la capacidad de indicar con imágenes.
- No se trata simplemente de combinar imágenes y palabras como en Photoshop, sino de generar indicaciones basadas en imágenes y sus características.
- El uso de imágenes como indicaciones puede generar resultados sorprendentes e inesperados que pueden ser difíciles de controlar, pero que también pueden ofrecer nuevas e interesantes oportunidades para la creatividad.
- Por ejemplo, se pueden crear diseños abstractos utilizando colores de marca o fotografías personales y luego multiplicar esa línea de base con indicaciones personalizadas para crear una base visual única.
-
Otro avance importante en las indicaciones es el auge de la cultura de las selfies, que ha impulsado que muchas herramientas impulsadas por IA ayuden a los usuarios a generar más selfies e imágenes de perfil en función de sus características.
- En el espacio de imagen a imagen, algunas nuevas empresas están haciendo cosas interesantes con la generación de imágenes, permitiendo a los usuarios ingresar imágenes principales y luego generar versiones infinitas de esas imágenes basadas en modificadores específicos.
-
Con acceso a bibliotecas de mensajes y la capacidad de ingresar imágenes, los usuarios ya no comienzan desde cero cuando usan estas herramientas.
- Tienen una base desde la cual trabajar, que se puede personalizar con indicaciones específicas para lograr el resultado deseado.
- Sin embargo, controlar el resultado puede ser un desafío, ya que los usuarios dependen de la IA para comprender sus intenciones y generar el resultado deseado.
- Se necesita tiempo y práctica para aprender a perfeccionar las indicaciones para obtener un mayor rendimiento de las imágenes deseadas en comparación con las no deseadas.
Tirando de la máquina tragamonedas AI
-
Los modelos de IA son como una caja negra, lo que dificulta afinar o comprender cada pequeña pieza que entra en la entrada y la salida.
- Introducir el mismo mensaje en un modelo de IA no necesariamente da como resultado el mismo resultado porque comienza a partir de una nube aleatoria de ruido.
- Al probar diferentes indicaciones, es difícil diferenciar si el resultado es bueno o simplemente suerte.
- Algunas personas caen en la trampa de generar mensajes una y otra vez, con la esperanza de obtener mejores resultados, como tirar de una máquina tragamonedas con IA.
- La evidencia y otras comunidades pueden ayudar a aprender del trabajo de otras personas e impulsar a comprender mejor qué funciona y qué no.
- Pueden ocurrir mensajes negativos y fallas, como la infame falla de la mano al generar imágenes de personas.
- Las limitaciones de los modelos de IA son que tienen dificultades con tareas específicas y todavía hay fallos en la matriz.
-
Algunos modelos, como DALL-E 2, tienen dificultades para comprender que están dibujando cosas en un cuadrado, pero los usuarios pueden cargar una imagen de borde para obligarlo a pensar dentro del cuadro.
- Otros modelos, como Midjourney, han resuelto el problema de la composición al comprender las posibilidades y limitaciones de la IA y el rápido proceso de ingeniería.
Comparando modelos
-
Tres modelos populares: Midjourney, DALL-E 2 y Stable Diffusion
- La capacidad de solicitar mensajes dentro de cada modelo es similar a cambiar entre Excel y Google Sheets.
- Las diferencias entre los modelos son como aprender diferentes idiomas, con principios similares y algunas variaciones en los modelos más nuevos.
- Midjourney hace el trabajo pesado para ayudar a crear resultados de alta calidad, mientras que Stable Diffusion tiene un conjunto de datos más grande.
-
Se toman decisiones creativas y de ajuste sobre los modelos para optimizarlos.
- Al igual que conducir diferentes autos, algunos modelos responden mejor que otros
- A veces, se necesita otra herramienta para lograr el refinamiento final de una imagen, como Facetune o inpainting/outpainting.
-
La abundancia de materias primas pero imperfectas crea oportunidades para nuevas herramientas y mejoras a las existentes.
- Algunos efectos, como la apariencia de una película antigua, son más fáciles de lograr con otras herramientas, como las aplicaciones de iPhone.
Funciones solicitadas
- Potencial para que se desarrollen más modelos utilizando difusión estable de código abierto
- El desafío y la oportunidad es ir más allá del cuadro de texto y crear algo más fácil de usar e inspirador que coincida con la forma de pensar de la gente.
- A los diseñadores les resulta difícil cuando los clientes no pueden explicar lo que quieren y los modelos de IA están en la misma posición.
- Posibilidad de una interfaz conversacional para la generación de IA, con la generación sucediendo lo suficientemente rápido como para mostrar múltiples opciones y direcciones.
- El libro Prompt ayudó a comprender la pintura metafísica y el código del cromo, pero algunas otras estéticas y estilos no tienen nombre.
- El arte visual expresa cosas que no se pueden expresar con palabras, y el objetivo es desatar lo inexplicable e indefinible.
- Sería útil contar con una mejor experiencia de incorporación que oriente a los nuevos promotores sobre cómo pueden encajar las diferentes indicaciones.
- Potencial para crear un archivo zip de un panel de estado de ánimo y entrenar a la IA para que trabaje con ese concepto en particular.
- Se pueden utilizar trucos de incrustación para entrenar la IA con estilo en lugar de solo caras
- Interés en una versión del producto donde los usuarios puedan cargar imágenes o colores de la marca e iterar con IA para crear imágenes que coincidan con su marca.
Aprender con IA
- Aprender con herramientas de IA puede generar experiencias personales que ayuden a sacar a la luz cosas que nunca antes se habían considerado.
- El uso de herramientas de IA tiene dos modalidades: esperar a ver lo que muestra el modelo o visualizarlo en tu mente y rechazar lo que no funciona
- Permitir que el modelo de IA lo lleve a donde quiere puede conducir a un resultado completamente diferente e inesperado.
-
La herramienta de variaciones en DALL-E 2 puede generar cuatro imágenes más que son similares a la imagen original.
- El uso repetido de la herramienta de variaciones puede conducir a un viaje visual psicodélico similar al de un sueño.
Casos de uso prácticos
-
Las herramientas de IA tienen aplicaciones prácticas más allá de la simple creación de arte interesante
- Algunos ejemplos incluyen el uso de imágenes generadas para compartir publicaciones de blogs o diseñar productos como zapatillas de deporte.
- Es posible que algunos usos de las herramientas de IA no se anuncien explícitamente debido a consideraciones éticas y legales.
-
Existe la posibilidad de que el contenido generado por IA supere las formas tradicionales de entretenimiento como Netflix o Instagram.
- Las herramientas de inteligencia artificial podrían integrarse potencialmente con la impresión 3D para crear productos de la vida real
- Existe un debate sobre el valor del contenido generado por IA en comparación con las formas tradicionales de arte y diseño, pero hay muchos niveles diferentes en los que interactuamos con los componentes visuales en la vida cotidiana.
Un ingeniero rápido del 1% superior
-
La idea de un "ingeniero rápido" sólo puede ser dominada por unas pocas personas, lo que las hace más valiosas en el campo.
- Por otro lado, a medida que la tecnología avanza, cualquiera puede aprender a dar indicaciones razonablemente bien, lo que la convierte en un conjunto de habilidades fundamentales similar a la lectura y la escritura.
-
El desarrollo de herramientas fundamentales en la industria de la IA puede incentivar a hacer de la ingeniería rápida una habilidad que cualquiera pueda hacer bien.
- Sin embargo, todavía habrá personas que se especialicen en ingeniería rápida y exploren los límites de lo posible, similares a aquellos que se especializan en tallar madera o animar cabello.
-
También puede ser necesario contar con personas que se especialicen en "indicaciones secretas", como redactores que agreguen una capa de indicaciones a la IA que los consumidores no ven.
- Al igual que en la industria de la música o el cine, es probable que exista una variedad de carreras especializadas en la industria de la IA, como ingenieros rápidos que se especializan en cabello o manos o empresas SaaS empresariales.
- El concepto de “ingeniero rápido 10x” puede convertirse en una metáfora común en el mundo de la tecnología, similar a la idea de un “ingeniero de grabación 10x” en la industria de la música.
- A medida que la industria de la IA crezca, habrá una variedad de carreras disponibles que aún ni siquiera se imaginan.
Las imágenes más populares
- Steph y Guy discuten la idea del arte o las imágenes más populares compartidas en línea.
-
Steph dice que, como alguien que pasa mucho tiempo en Twitter, los memes le vienen a la mente como la imagen más popular.
- Ella explica que los memes son una forma básica de imágenes que consisten en una imagen con texto en mayúscula.
- Lo que la gente resuena no es necesariamente el tipo de imágenes más refinadas o extravagantes.