Stable Diffusion 3：功能有哪些提升与改进？

周四，Stability AI 宣布推出 Stable Diffusion 3，这是该公司图像生成 ai 模型的最新和最强大的版本。该模型采用扩散变换架构，显著提高了在多主题提示、图像质量和拼写能力方面的性能。

Stable Diffusion 3使用更新的“扩散变压器”，该技术于 2022 年首创，但在 2023 年进行了修订，现已实现可扩展性。OpenAI 令人印象深刻的视频生成器 Sora 显然也遵循类似的原理（该论文的合著者 Will Peebles 继续共同领导 Sora 项目）。 Stable Diffusion 3 系列模型（采用称为“提示”的文本描述并将其转换为匹配图像）的大小范围从 8 亿到 80 亿个参数不等。尺寸范围允许不同版本的模型在各种设备（从智能手机到服务器）上本地运行。

Stable Diffusion 3的性能提升与改进：

1、增强的多主题处理能力：新模型显著提升了对包含多个主题或元素的提示的理解和处理能力。这使得用户能够在单一提示中描述更为复杂的场景，而模型则能够基于这些描述更准确地生成图像。

2、图像质量提升：Stable Diffusion 3在生成图像的质量上实现了显著提升，包括更精细的细节表现、更准确的颜色匹配以及更自然的光影效果。这些进步让生成的图像更逼真，更好地捕捉用户的创意意图。

3、改善的拼写和文本处理：该版本在处理包含文本元素的图像时（例如标语、标签等），展现了更优的拼写和文本理解能力。这意味着模型能更准确地识别和渲染提示中的文字，即便是在复杂的视觉背景下也能做到。

4、采用新型扩散变换技术：Stable Diffusion 3引入了一种新型扩散变换技术，类似于Sora，为模型赋予了更强大的图像生成能力。Transformer是一种深度学习模型，专为逐步构建图像细节而设计，以产生高质量的视觉内容。

5、流匹配及其他技术改进：模型整合了流匹配技术及其他技术改进，以进一步提高生成图像的质量和多样性。流匹配技术帮助模型更好地理解和模拟图像中的动态元素和结构，让生成的图像在视觉上更加连贯和自然。

6、利用Transformer技术的进步：Stable Diffusion 3充分利用了Transformer技术的最新进展，不仅扩展了模型的能力，还使其能够处理多模态输入。这意味着模型能够处理更复杂和多样化的数据类型，如结合文本和图像的输入，从而在理解和生成图像内容方面提供更多的灵活性和精确度。

尽管目前已经提及了一些关键的技术创新，Stability AI计划很快发布更多的技术细节。这些细节将为技术社区和感兴趣的用户提供对Stable Diffusion 3技术基础和创新点的深入了解。

尽管Stable Diffusion 3尚未得到广泛应用，Stability却表示，测试一旦结束，用户便能免费下载其权重，并在本地环境中运行它。Stability在声明中提到：“正如之前模型的预览阶段一样，这一阶段对于在正式发布前收集反馈、优化性能和提升安全性极为重要。”

最近，Stability一直在探索多种图像合成技术。除了SDXL和SDXL Turbo外，该公司上周还推出了Stable Cascade，这是一种通过三阶段过程将文字生成图像的合成技术。另外，Stability AI的另一款文生视频和图生视频产品Stable Video，也在这次公测中推出，为用户提供了更多选择。