¿Qué es Stable Diffusion? Hay un montón de herramientas IA en la actualidad, y hoy nos toca hablar de esta. Si te estabas preguntando para qué sirve Stable Diffusion, este artículo te lo aclara de una forma simple y rápida.
Llevamos algún tiempo hablando de la inteligencia artificial y las muchas cosas que se pueden hacer con ella. Es un mundo nuevo y muy apasionante, donde veremos cosas increíbles en un futuro inmediato. Herramientas como ChatGPT y MidJourney ya nos está mostrando algunas cosas que se pueden hacer.
Indice de Contenidos
1 – ¿Que es Stable Diffusion?
En el artículo sobre MidJourney se explicaba que es una herramienta basada en texto a imagen. Stable Diffusion es básicamente eso y lo que hace es generar gráficos basados en un texto que una persona le proporcione. Lo hace con una alta resolución y hasta el momento está consiguiendo los resultados más asombrosos en esta tecnología.
Mientras que Google y la compañía OpenAI parece que tienen todas las papeletas para ser los reyes de la inteligencia artificial, hay otras que están pegando fuerte. Es el caso de Stability AI, la cual es la creadora de Stable Diffusion. Ya estás incluida con las otras herramientas de referencia, como es la mencionada MidJourney y Dalle-E 2.
2 – ¿Cómo funciona Stable Diffusion?

Para hablar de cómo funciona, hay que contar qué son los modelos “diffusion”. El nombre que tienen realmente son modelos ASF de difusión. ¿Cómo lo hacen? Estos modelos consiguen crear imágenes a partir de un texto en dos fases.
En la primera fase el modelo hace una revisión de la imagen y luego la va añadiendo “ruido” para hacer modificaciones. ¿Qué significa lo del “ruido”? Es básicamente hacer una distribución de diminutos puntos y “borrones” que empeoran bastante la imagen. Dicho de otra manera, de una imagen nítida se hace una conversión a una imagen más borrosa y degradada.
¿Cómo es posible esto si se trata de crear una imagen de gran calidad? Es cuando entra la segunda fase del modelo de difusión. Lo que se hace es empezar a quitar esos puntos que habías puesto antes pero aclarar la imagen de nuevo. Lo hace de una manera algo distinta para lograr una nueva versión de la imagen. Lo hace ajustándolo a los patrones del texto que se le ha metido.
Te puedes estar preguntando de donde saca los modelos Stable Diffusion. Es uno de los puntos más importantes de la herramienta, y lo hace usando una red de inteligencia artificial llamada Laion. Esta red es de origen alemán y sin ánimo de lucro, poniendo a la disposición de todo el mundo un gran número de modelos y datos.
Stable Diffusion usa la potencia de la base de datos de Laion para usar más de cinco millones de imágenes. Esto es más que suficiente para que la inteligencia artificial de la herramienta pueda generar la imagen base para hacer la creación final.
3 – Componentes de la herramienta

Lo primero que hay que tener en cuenta es que Stable Diffusion consume mucha memoria de un ordenador. Se tiene que tener una buena tarjeta de video para que el ordenador sea capaz de manejar todo el proceso de la herramienta. Aun así, la herramienta usa lo que se conoce como Latent Diffusion.
Latent Diffusion libera bastante al equipo del consumo que necesita la herramienta IA. Lo hace usando varios componentes que son los siguientes:
– VAE. Se trata de un codificador/descodificador que convierte las imágenes de a un modo con el “ruido” que hemos comentado antes y luego lo vuelva a “limpiar”.
– Codificador de texto. Es el que se encarga de interpretar el texto para crear las imágenes como el usuario quiere. En este caso, el prompt es lo más importante. Dicho de otra manera, el codificador tiene que entender lo que la persona le escribe para poder hacer su trabajo.
– U-Net. También consiste en un codificador y un descodificador, y es el encargado de la resolución de las imágenes. Se encarga de no perder información y así mantener la imagen como la desea el usuario.
4 – ¿Para que es bueno Stable Diffusion?
Se hacen muchas comparaciones de Stable Diffusion con DALL-E, y es que ahora son las más populares. Lo cierto es que Stable Diffusion se estás usando más en temas artísticos. Las imágenes tienen sus mejores resultados en el hiperrealismo y fantasía, mientras que DALL-E sigue ganando en el realismo de las imágenes.
Aunque Stable Diffusion necesita muchos recursos de un ordenador, lo hace de manera más eficiente que DALL-E. Esto quiere decir que en equipos con tarjetas más limitadas todavía se puede usar esta herramienta.
Otra de las cosas en las que destaca Stable Diffusion es lo mucho que se puede personalizar. Se hace de una forma muy sencilla y no hace falta tener unos grandes conocimientos técnicos.
5 – Preguntas Frecuentes
¿Qué tarjeta gráfica necesito para usar Stable Diffusion?
Como se ha dicho, cuanto más potente sea la tarjeta gráfica mucho mejor. Es aconsejable que al menos tenga 6 GB de VRAM.
¿Cómo usar la IA Stable Diffusion?
Para empezar a usar la herramienta hay que ir a la web beta.dreamstudio.ai y después de una verificación habrá que registrarse a la web de Stability AI. Una vez dentro solamente es cuestión de jugar con la herramienta.
¿Qué es Dreamstudio?
Es parte de las herramientas que tiene Stability AI. Es básicamente un generador de imágenes que puede usar todo el que quiera probar la herramienta.
¿Qué es Nai Diffusion?
Es una aplicación que se crea chicas con una apariencia sacada del mundo manga y anime.