Stable Diffusion

Wie ChatGPT aus Text-Prompts Text-Antworten generiert, so erzeugt Stable Diffusion nach den Vorgaben der Prompts Bilder. Die zugrundeliegende Mathematik ist äußerst kompliziert.

Während zunächst Bildgeneratoren wie DALL-E und Midjourney in aller Munde waren, läuft ihnen Stable Diffusion allmählich den Rang ab, da die Technik mehrere Vorteile bietet. Sie kommt ursprünglich aus der LMU in München und ist Open Source. Wer sich für die Original-Veröffentlichung interessiert, findet sie unter https://arxiv.org/pdf/2112.10752.pdf. Stable Diffusion ist deutlich weniger rechenintensiv und somit nicht Supercomputern vorbehalten, sondern läuft auf jedem einigermaßen gut ausgestatteten PC mit einer Nvidia-Grafikkarte und 8 GByte VRAM. Es gibt mehrere Plattformen wie etwa Nightcafé unter https://creator.nightcafe.studio, auf denen sich Stable Diffusion nutzen lässt.

Wie Stable Diffusion aus Texteingaben detaillierte Kunstwerke erschafft, überrascht: Im ersten Teil nimmt es ein Bild und fügt eine kontrollierte Menge an Zufallsrauschen hinzu. Im zweiten Teil versucht das Modell dann, das Bild zu entrauschen und den ursprünglichen Inhalt zu rekonstruieren. Der Name Diffusionsmodell rührt daher, dass die Mathematik den Berechnungen von Diffusion in der Physik ähnelt. […]

Fachartikel für Chip