Stable Diffusion

到底 Stable Diffusion 有多少個版本？

Stable Diffusion 在推出短短兩年間已經推出了多個版本，最為人熟悉的就是 Stability AI 推出的 1.5 跟 SDXL 。那麼除此之外，還有什麼版本呢？就由最初 Stable Diffusion 的起源開始說起。

Edmond Yip

May 22, 2024 — 12 min read

到底 Stable Diffusion 有多少個版本？

Stable Diffusion 在推出短短兩年間已經推出了多個版本，最為人熟悉的就是 Stability AI 推出的 1.5 跟 SDXL 。那麼除此之外，還有什麼版本呢？就由最初 Stable Diffusion 的起源開始說起。

沒有 Version 1.0 的 Stable Diffusion

追溯最舊版本的 Stable Diffusion 就是由 CompVis 發佈的 1.1 版本，既不是由 Stability AI 推出，也不是由 version 1.0 開始，因為在此之前其實是叫 Latent Diffusion，因為 Stable Diffusion 本來就是一種 Latent Diffusion Model (LDM)。

同樣由 CompVis 開發的 Latent Diffusion 才是真正的 Stable Diffusion 1.0 ，而且一開始已經有 Text-to-Image 及 Inpaint 的功能存在。Latent Diffusion 並沒有再更新或新的版本，因為接下來就推出了 Stable Diffusion 。

Stable Diffusion 1.1, 1.2, 1.3, 1.4

在 Latent Diffusion 推出後不久，2022 年 8 月 CompVis 就接連推出了四個版本的 Stable Diffusion。越高的版本編號使用更多的步數來訓練，出來的效果亦比較好。

Stable Diffusion 1.1
使用了 237000 步 256 x 256 及 197000 步 512 x 512 來訓練。
Stable Diffusion 1.2
使用了 515000 步 512 x 512 訓練，並使用了 laion-improved-aesthetics 作為 dataset。
Stable Diffusion 1.3
是 1.2 的改良版，使用了 195000 步 512 x 512 的圖來訓練，並使用了 laion-improved-aesthetics 作為 dataset，減少了 10% 文字調節。
Stable Diffusion 1.4
是 1.2 的改良版，使用了 225000 步 512 x 512 來訓練，並使用了 laion-aesthetics v2 5+ 作為 dataset，減少了 10% 文字調節。

Stable Diffusion 1.5

2022 年 10 月時，RunwayML 推出了最廣為人知的 Stable Diffusion 1.5，是早期最多使用來用來 fine tune 訓練的版本，甚至比之後推出的版本更受歡迎。不過 Stable Diffusion 1.5 後， RunwayML 及 CompVis 也退出了 Stable Diffusion 的開發了。

Stable Diffusion 1.5
也是 1.2 的強化版，採用了 595000 步 512 x 512 的 laion-aesthetics v2 5+ dataset 並減少了 10% 文字調節訓練而成。

Stable Diffusion 2.0, 2.1

一直以為是 Stable Diffusion 正式官方的 Stability AI。其實 2022年 11 月才第一次推出的 Model 是 Stable Diffusion 2.0 及同年 12月的 2.1，然而這兩款 Model 因為容量比 1.5 大但沒有沒 1.5 好，一直都很少人使用，也鮮有相關的 extensions 會支援 2.0/2.1 。

Stable Diffusion 2.0
原先以 550000 步 256 x 256 訓練後再以 850000 步的 512 x 512 的圖片加以訓練出 base 版本。後來再以 base model 改良，使用 150000 步 v-objective 訓練及 768 x 768 大小的 dataset 訓練 140000 步。
Stable Diffusion 2.1
以 2.0 為基礎 fine tune 而成，並以相同 dataset 追加了 55000 步的訓練及 155000 步的額外步數來 fine tune。

Stable Diffusion XL (SDXL)

2023 年 6月繼 Stable Diffusion 1.5 後另一個強大的 Model，SDXL 分別以 600000步 256 x 256 和 200000 步 512 x 512 大小的圖片 Dataset 訓練及剪裁而成，適合生成 1024 x 1024 大小或長闊總和等於 2048 的圖片，並將生成過程分成 base 及 refiner 兩步，生成圖片質素大大提升。而且 LoRA 及 ControlNet 也對 SDXL 提供完善的支援，所以使用者人數不斷增加。

Stable Diffusion XL 0.9 base / refiner
SDXL 的預覽版，只供早期測試用，生成效果明顯比正式版差，所以使用者不多。
Stable Diffusion XL 1.0 base /refiner
SDXL 正式版，強大的生成效果，比之前的 Model 都有更強的文字理解能力，可以使用自然言語來作 prompts，也比 0.9 版本有更佳的效能。
Stable Diffusion XL beta 2.2.2
非公開版本，只能在 Stability AI Developer Platform v1 版的 API 中使用，將 engine_id 設定為 stable-diffusion-xl-beta-v2-2-2 才能使用，是 SDXL 的 fine tune 版本。
Stable Image Core
另一個非公開的 SDXL Model，只能在 v2 API 中使用，據官方說明是 SDXL 的 fine tune 版本。

Stable Diffusion 1.6

這個版本相信比較少人知道，因為這不是一個 open source 的版本，其實是 Stability AI Developer Platform 在 2023年 11月發佈，只能在 v1 版的 API 可以使用 (最新 API 為 v2)。

Stable Diffusion 1.6
是 Stable Diffusion 1.5 的 fine tune 版本，據說能生成比 1.5 更好的圖片。

Stable Diffusion XL Turbo (SDXL Turbo)

在 2023 年 11 月能加快生成的 LCM (Latent Consistency Models) 推出後，Stability AI 也推出了高速生成圖片，將一般 30～40步的生成步數，大幅減少到 1～4步。

SDXL Turbo
從 SDXL 加上 Adversarial Diffusion Distillation (ADD) 技術蒸餾而成，能大幅減少生成圖片所需的步數，但只能生成 512 x 512 的圖片，效果也略為濛糊。
SD Turbo
Stable Diffusion 2.1 的 Turbo 版本，意外地官方會推出 2.1 版本，但跟 2.1 一樣也很少使用者。

Stable Video Diffusion (SVD)

在動畫 Model Animatediff 推出後不久，2023年 11月 Stability AI 推出了首個 img2vid 的動畫 Model Stable Video Diffusion，只需一張圖片即可生成數秒動畫，並且沒有之前生成動畫的閃格問題。

Stable Video Diffusion
用來生成 14 個影格 576 x 1024 的影片。
Stable Video Diffusion XT
Fine tune 自 Stable Video Diffusion 用來生成 25 個影格 576 x 1024 的影片。

Stable Zero 123

2023 年年尾連續發佈多個 Model ， 2023年 12月發佈的 Stable Zero 123 向另一個方向發展，就是生成 3D 物件，利用單一張圖片就可以生成多個方向的圖片，即使是背面也可以順利生成。

Stable Zero 123
此 Model 基於 Zero 123 訓練而成，而出來的效果比 Zero123 及 Zero 123 XL 更好。

Stable Diffusion Cascade

2024 年 2月 Stability AI 發佈了新一化的 Stable Diffusion Cascade，比起之前 SDXL base 跟 refiner 的兩段式生成，Stable Diffusion Cascade 採用 ABC 三段式生成，單獨處理文本生成的過程，令生成效果保持高質同時大幅提升效能，而且單一 Model 已經可以生成不同風格的圖片，所以不像 1.5 及 SDXL 有大量 fine tune Model，但其能力已經超越 SDXL 水準。

Stable Diffusion Cascade

Stable Diffusion XL Lightning (SDXL Lightning)

在 SDXL Turbo 推出後，雖然令 SDXL 生成速度快如 SD 1.5 ，但是其畫質及生成細緻畫面會濛糊的問題令人卻步。

SDXL Lightning
由 ByteDance 開發的 SDXL-Lightning 不單跟 SDXL Turbo 一樣可以 4～8 步內完成，並保持生成效果高質素 1024 x 1024 的圖片，獲得不少開發者青睞，所以也有不少以 SDXL Lightning 為藍本 fine tune 的 Model。

Stable Diffusion 3

Stability AI 在發佈 Stable Diffusion Cascade 後不久，2024 年 2 月就發佈了 Stable Diffusion 3 的預覽，並在 2024 年 4 月在 Stability AI Developer Platform 以 API 形式發佈了 Stable Diffusion 3，正式公開給公眾使用，是第一隻沒有 open source 的 Stable Diffusion Model，同時 CEO 的離去，令人懷疑 Stable Diffusion 3 會不會有 open source 的一日。

Stable Diffusion 3
只有在 Stability AI 提供的 API 中使用，超越以前所有 Model 的畫質，強大的文字識別能力。
Stable Diffusion 3 Turbo
在推出 API 同時登場的 Turbo 版本，能以更快的速度生成圖片，同時保持 Stable Diffusion 3 的強大能力。
Stable Diffusion 3 Medium
首個 Open Source 的 Stable Diffusion 3 Model，雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半，但因為配合 T5XXL 的 text encoder ，對自然語言的理解能力大增。

Stable Video 3D

2024年 3月 Stability AI 發佈了 Stable Video 3D，結合 Stable Video Diffusion 及 Stable Zero 123 的技術，利用單一圖片生成一段可以 360 度旋轉的動畫。

Stable Video 3D
使用一張靜態的圖片，就可以生成 21 個影格 576 x 576 的動畫。

Cos Stable Diffusion XL

2024 年 4月 Stability AI 發佈了 Cos Stable Diffusion XL，一款基於 SDXL 使用 Cosine-Continuous EDM VPred schedule fine tune 而成。特徵是可以生成純黑至純白的影像。

Cos Stable Diffusion XL 1.0
基於 SDXL fine tune 而成。
Cos Stable Diffusion XL 1.0 Edit
跟 Cos Stable Diffusion XL 同時推出，特點是使用作 img2img 的 model 可以不用任何 mask 或 ControlNet 的情況下做到 inpaint 的效果。

直到 2024 年 5月所推出的 Stable Diffusion Model

Model 名稱	推出日期	開發者	連結
Latent Diffusion	2022 年 7 月	CompVis	Github
Stable Diffusion 1.1	2022 年 8 月	CompVis	HuggingFace
Stable Diffusion 1.2	2022 年 8 月	CompVis	HuggingFace
Stable Diffusion 1.3	2022 年 8 月	CompVis	HuggingFace
Stable Diffusion 1.4	2022 年 8 月	CompVis	HuggingFace
Stable Diffusion 1.5	2022 年 10 月	RunwayML	HuggingFace
Stable Diffusion 1.6	2023 年 11 月	Stability AI	API
Stable Diffusion 2.0	2022 年 11 月	Stability AI	HuggingFace
Stable Diffusion 2.1	2022 年 11 月	Stability AI	HuggingFace
Stable Diffusion XL 0.9	2023 年 6 月	Stability AI	HuggingFace
Stable Diffusion XL 1.0	2023 年 7 月	Stability AI	HuggingFace
Stable Diffusion XL beta 2.2.2	2023 年 11 月	Stability AI	API
Stable Image Core	2024 年 3 月	Stability AI	API
Stable Diffusion XL Turbo	2023 年 11 月	Stability AI	HuggingFace
Stable Diffusion Turbo	2023 年 11 月	Stability AI	HuggingFace
Stable Video Diffusion	2023 年 11 月	Stability AI	HuggingFace
Stable Video Diffusion XT	2023 年 11 月	Stability AI	HuggingFace
Stable Zero 123	2023 年 12 月	Stability AI	HuggingFace
Stable Diffusion Cascade	2024 年 2 月	Stability AI	HuggingFace
SDXL Lightning	2024 年 2 月	ByteDance	HuggingFace
Stable Diffusion 3	2024 年 2 月	Stability AI	API
Stable Diffusion 3 Turbo	2024 年 2 月	Stability AI	API
Stable Diffusion 3 Medium	2024 年 6 月	Stability AI	HuggingFace
Stable Video 3D	2024 年 3 月	Stability AI	HuggingFace
Cos Stable Diffusion XL	2024 年 4 月	Stability AI	HuggingFace

連同沒公開的幾個版本，其實 Stable Diffusion 在短短兩年間推出了超過 20 個版本，你最喜歡使用的版本又是那一個呢？

2024 年 6 月12 日更新

Stable Diffusion 3 Medium
首個 Open Source 的 Stable Diffusion 3 Model，雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半，但因為配合 T5XXL 的 text encoder ，對自然語言的理解能力大增。

到底 Stable Diffusion 有多少個版本？

Edmond Yip

沒有 Version 1.0 的 Stable Diffusion

Stable Diffusion 1.1, 1.2, 1.3, 1.4

Stable Diffusion 1.5

Stable Diffusion 2.0, 2.1

Stable Diffusion XL (SDXL)

Stable Diffusion 1.6

Stable Diffusion XL Turbo (SDXL Turbo)

Stable Video Diffusion (SVD)

Stable Zero 123

Stable Diffusion Cascade

Stable Diffusion XL Lightning (SDXL Lightning)

Stable Diffusion 3

Stable Video 3D

Cos Stable Diffusion XL

直到 2024 年 5月所推出的 Stable Diffusion Model

2024 年 6 月12 日更新

Read more

輕鬆本地免 VPN 免連線免費任用 ChatGPT

由零開始的程式設計 (1) - 構思及可行性

親身體驗 Vibe Coding

未來 AI 是否取代人類工作？