November 27, 2023

Episodio 98. Stable Diffusion

11 minutes

Ha sido durante este último mes que me ha dado por tocar un poco más el tema de la generación de imágenes con inteligencia artificial. Hasta ahora había probado Midjourney, del que por cierto, tenéis un episodio en este podcast. Te dejo aquí el enlace al episodio. También he probado Dall-e, de OpenAI, desarrolladores de ChatGPT. Pero ¿qué hace diferente a Stable Diffusion? Su licencia. Y cómo todos vosotros sabéis, soy un amante del mundo Open Source. Pues bien, Stable Diffusion es Open Source.

Pero antes, mi nombre es Javier Vega, artista 3D y desarrollador web con las dosis necesarias de marketing para poder vivir de esto. También soy fundador de la Academia de Zao3D para que te puedas iniciar en este apasionante mundo y para que, además, le des un punto de vista para ganarte la vida con él. Es decir, para ser freelance 3D.

Y yendo al episodio de hoy. Puedo decir que, como casi siempre suele pasar, uno es receloso de este tipo de tecnologías. Pero esto nos pasa a todos. Vivimos con el miedo al cambio, y en este aspecto, la IA ha avanzado mucho y rápidamente. Pero reflexionando, porque te tienes que parar a reflexionar en algún momento, te das cuenta de que por mucho o poco de acuerdo estés con esto, no va a detenerse. Esto va a avanzar más y más. Solo te queda aceptarlo y pensar qué puedes hacer con esto. Sencillo y llano.

Lo que está claro, porque siempre me ha pasado, es que no quiero quedarme anclado en el pasado. Y también que siempre he sido un amante de la tecnología y la ciencia ficción. Por eso también debo confesar que, en realidad, no tengo mucho miedo a esto. Más bien tengo bastante fascinación. No esperaba que me iba a vivir esta experiencia. Pensaba, lógicamente que esto iba para lejos, para cuando yo no estuviera vivo. Así que en lugar de amargarme he decidido disfrutarlo.

Hasta hace poco me ha frenado bastante el tema de ejecutar estos modelos de inteligencia artificial, tanto los de lenguaje como los de creación de imágenes porque no sabía ni por dónde empezar ni cómo funcionaban. Los que me conocéis sabéis que tengo un pasado de programador, y casi presente también, claro, que me impide frenarme cuando se debe ejecutar código. Solo tenía que saber qué necesito para ejecutar todo esto.

Y por eso me interesé por Stable Diffusion ya que al ser Open Source es posible bajarse el código y ejecutarlo donde quieras. Igual que Blender o WordPress. Solo quería saber cómo se ejecutan estas cosas. Estas IA.

Me he tratado cientos de tutoriales para aprender cómo se ejecuta esto. He tenido que echar mano de cuadernos de Google Colab. Si no sabes lo que es Google Colab tengo otro episodio donde te hablo de cómo usar Google Colab para renderizar con Blender. Porque uno de los requisitos es usar una GPU potente para hacer funcionar a estos programas. Pero yo pensé que creo que tengo una buena tarjeta gráfica y por lo tanto sería posible usarlo en mi propio PC. Y dicho y hecho. Acabé instalando Stable Diffusion en mi PC.

Aquí viene lo interesante. Porque estos temas, conforme te vas adentrando, te van atrapando también, porque tiene miles de ramas y te acabas desviando. Así que aprendes que tu IA tiene que aprender también. Es decir, se debe entrenar para el propósito que tengas en mente. Para esto necesitas generar un dataset con el que alimentar a tu IA. El dataset, en el caso de Stable Diffusion, son imágenes. En el caso de un Modelo de Lenguaje, serían textos. Así que me hice con una buena selección de imágenes para entrenar mi propia IA.

Como he dicho antes, una vez te sumerges en este mundo descubres, y esto es gracias al Open Source, de que hay modelos ya entrenados de los que puedes disponer y usar. El sitio que descubrí y que es fantástico es Hugging Faces.

...more