À la découverte de Stable Diffusion : introduction

Stable Diffusion est un modèle de génération d’images numériques photoréalistes à partir de descriptions en langage naturel. A la différence de MidJourney ou DALL-E, son code source a été rendu public à l’été 2022. Cette libération du code source a permis la création d’une communauté d’utilisateurs et de chercheurs extrêmement active.

J’avoue être passé complètement à côté de ce sujet pendant un an, plus occupé à tester les LLMs (Large Language Models comme GPT-4 et LLaMA) pour développer ou augmenter ma productivité. Je rattrape mon retard et ce sera l’occasion d’écrire une série d’articles techniques pour décrire l’installation et l’utilisation de Stable Diffusion.

Stable Diffusion peut fonctionner sur la plupart des matériels grand public équipés d’une carte graphique un peu puissante (type Nvidia RTX avec au moins 4 Go de VRAM). Mais, si vous n’êtes pas gamer, il est possible d’utiliser des services en ligne de génération d’images, ou quand on est geek, d’utiliser un serveur dans le cloud équipé d’une carte graphique surpuissante.

C’est ce dernier cas que je vais décrire dans le prochain article : comment installer Stable Diffusion sur un serveur Scaleway équipé d’une carte NVIDIA Tesla P100 16GB PCIe afin de pouvoir générer des centaines d’images en quelques minutes 👍

[À venir] Comment installer Stable Diffusion sur un serveur cloud avec une interface web
[À venir] Comment scripter la génération d’images en Python et l’API du Web UI de Stable Diffusion

Quelques images générées aléatoirement

Un avant-goût avec 100 images générées aléatoirement avec le script autogen.py que je présenterai prochainement.