SDXL新时代开启之前，让我们回顾一下“稳定扩散”世界中发生的一切！

一、OpenAI的Dall-E：从平庸到开源

在SDXL时代到来之前，OpenAI推出了Dall-E，它能够生成一些中等质量的图像，但访问受限。相比之下，稳定扩散则是开源的，被广泛采用，因此非常受欢迎。人们开始优化它，使其在使用更少VRAM的情况下可用。我们有了SD1.4、SD1.5和SD2.+。此外，稳定扩散不仅支持Text2Img，还支持Img2Img和Inpaining，这些都是重大突破，无限可能性展现在眼前（比如StelfieTT通过数小时的努力制作出了精美的图像）。DreamBooth和类似技术让用户可以在稳定扩散的基础上进行训练，以生成更多“专业化”模型，我们很快将会有各种类型的模型（逼真、动漫等）。huggingFace和civitai等网站托管了所有这些模型。出现了更多的技术，如Hypernetworks、LORAs、Embeddings等，它们使训练更轻量化、更快速、更高效。甚至还有“模型合并”的技术。CKPT模型存在弱点，使用时可能存在潜在的危险，社区开始采用.safetensors来解决问题。不确定是何时，OUTpainting开始流行起来，人们对于如何使用它并不是非常了解，除了Img2Img标签下的两个outpainting脚本之外，还有其他扩展。直到ADOBE对其进行了审计并成功将其整合到Photoshop中，outpaining才变得流行起来。人们可以通过将流行的名字与不同的百分比相结合，制作出一致的角色形象（在训练、loras之外）。Img2Img并不容易使用，原始图像和人物姿势很容易被改变。只有那些愿意亲自绘制姿势的艺术家和爱好者才能通过img2img实现他们想要的效果。虽然有一些方法可以帮助，比如“img2img alternative test”…直到ControlNet的出现，一切都发生了翻天覆地的变化。ControlNet引入了各种模型，可以用于定位txt2txt和img2img的工作流程。这将使img2img用户更容易保持姿势/物品、文本和主题的一致性。在ADOBE将outpaining集成到其工具中之后（无需提示），ControlNet的开发者成功复现了他们的技术，通过使用“inpaint + llama”。通过低降噪强度的高分辨率修复，可以在小图像的基础上生成更大的图像，并且具有更高的细节。尽管如此，对于大多数用户来说，制作非常大的图像仍然是一个问题。直到出现了涉及ControlNet的终极稳定扩散放大器（USDU），人们才能够制作出巨大的图像，而不用太担心GPU或VRAM的问题。像Ultra Shaper这样的采样器能够生成极其详细的USDU图像。

文章版权归作者所有，未经允许请勿转载。

THE END