到底 Stable Diffusion 有多少個版本?
Stable Diffusion 在推出短短兩年間已經推出了多個版本,最為人熟悉的就是 Stability AI 推出的 1.5 跟 SDXL 。那麼除此之外,還有什麼版本呢?就由最初 Stable Diffusion 的起源開始說起。
Stable Diffusion 在推出短短兩年間已經推出了多個版本,最為人熟悉的就是 Stability AI 推出的 1.5
跟 SDXL
。那麼除此之外,還有什麼版本呢?就由最初 Stable Diffusion 的起源開始說起。
沒有 Version 1.0 的 Stable Diffusion
追溯最舊版本的 Stable Diffusion 就是由 CompVis 發佈的 1.1
版本,既不是由 Stability AI 推出,也不是由 version 1.0
開始,因為在此之前其實是叫 Latent Diffusion,因為 Stable Diffusion 本來就是一種 Latent Diffusion Model (LDM)。
同樣由 CompVis 開發的 Latent Diffusion 才是真正的 Stable Diffusion 1.0 ,而且一開始已經有 Text-to-Image 及 Inpaint 的功能存在。Latent Diffusion 並沒有再更新或新的版本,因為接下來就推出了 Stable Diffusion 。
Stable Diffusion 1.1, 1.2, 1.3, 1.4
在 Latent Diffusion 推出後不久,2022 年 8 月 CompVis 就接連推出了四個版本的 Stable Diffusion。越高的版本編號使用更多的步數來訓練,出來的效果亦比較好。
- Stable Diffusion 1.1
使用了 237000 步256 x 256
及 197000 步512 x 512
來訓練。 - Stable Diffusion 1.2
使用了 515000 步512 x 512
訓練,並使用了laion-improved-aesthetics
作為 dataset。 - Stable Diffusion 1.3
是1.2
的改良版,使用了 195000 步512 x 512
的圖來訓練,並使用了laion-improved-aesthetics
作為 dataset,減少了 10% 文字調節。 - Stable Diffusion 1.4
是1.2
的改良版,使用了 225000 步512 x 512
來訓練,並使用了laion-aesthetics v2 5+
作為 dataset,減少了 10% 文字調節。
Stable Diffusion 1.5
2022 年 10 月時,RunwayML 推出了最廣為人知的 Stable Diffusion 1.5,是早期最多使用來用來 fine tune 訓練的版本,甚至比之後推出的版本更受歡迎。不過 Stable Diffusion 1.5 後, RunwayML 及 CompVis 也退出了 Stable Diffusion 的開發了。
- Stable Diffusion 1.5
也是1.2
的強化版,採用了 595000 步512 x 512
的laion-aesthetics v2 5+
dataset 並減少了 10% 文字調節訓練而成。
Stable Diffusion 2.0, 2.1
一直以為是 Stable Diffusion 正式官方的 Stability AI。其實 2022年 11 月才第一次推出的 Model 是 Stable Diffusion 2.0
及同年 12月的 2.1
,然而這兩款 Model 因為容量比 1.5
大但沒有沒 1.5
好,一直都很少人使用,也鮮有相關的 extensions 會支援 2.0/2.1
。
- Stable Diffusion 2.0
原先以 550000 步 256 x 256 訓練後再以 850000 步的 512 x 512 的圖片加以訓練出 base 版本。後來再以 base model 改良,使用 150000 步 v-objective 訓練及768 x 768
大小的 dataset 訓練 140000 步。 - Stable Diffusion 2.1
以 2.0 為基礎 fine tune 而成,並以相同 dataset 追加了 55000 步的訓練及 155000 步的額外步數來 fine tune。
Stable Diffusion XL (SDXL)
2023 年 6月繼 Stable Diffusion 1.5
後另一個強大的 Model,SDXL 分別以 600000步 256 x 256
和 200000 步 512 x 512
大小的圖片 Dataset 訓練及剪裁而成,適合生成 1024 x 1024
大小或長闊總和等於 2048
的圖片,並將生成過程分成 base 及 refiner 兩步,生成圖片質素大大提升。而且 LoRA 及 ControlNet 也對 SDXL 提供完善的支援,所以使用者人數不斷增加。
- Stable Diffusion XL 0.9 base / refiner
SDXL 的預覽版,只供早期測試用,生成效果明顯比正式版差,所以使用者不多。 - Stable Diffusion XL 1.0 base /refiner
SDXL 正式版,強大的生成效果,比之前的 Model 都有更強的文字理解能力,可以使用自然言語來作 prompts,也比0.9
版本有更佳的效能。 - Stable Diffusion XL beta 2.2.2
非公開版本,只能在 Stability AI Developer Platform v1 版的 API 中使用,將engine_id
設定為stable-diffusion-xl-beta-v2-2-2
才能使用,是 SDXL 的 fine tune 版本。 - Stable Image Core
另一個非公開的 SDXL Model,只能在 v2 API 中使用,據官方說明是 SDXL 的 fine tune 版本。
Stable Diffusion 1.6
這個版本相信比較少人知道,因為這不是一個 open source 的版本,其實是 Stability AI Developer Platform 在 2023年 11月發佈,只能在 v1 版的 API 可以使用 (最新 API 為 v2)。
- Stable Diffusion 1.6
是 Stable Diffusion1.5
的 fine tune 版本,據說能生成比1.5
更好的圖片。
Stable Diffusion XL Turbo (SDXL Turbo)
在 2023 年 11 月能加快生成的 LCM (Latent Consistency Models) 推出後,Stability AI 也推出了高速生成圖片,將一般 30~40步的生成步數,大幅減少到 1~4步。
- SDXL Turbo
從 SDXL 加上 Adversarial Diffusion Distillation (ADD) 技術蒸餾而成,能大幅減少生成圖片所需的步數,但只能生成512 x 512
的圖片,效果也略為濛糊。 - SD Turbo
Stable Diffusion2.1
的 Turbo 版本,意外地官方會推出2.1
版本,但跟2.1
一樣也很少使用者。
Stable Video Diffusion (SVD)
在動畫 Model Animatediff 推出後不久,2023年 11月 Stability AI 推出了首個 img2vid 的動畫 Model Stable Video Diffusion,只需一張圖片即可生成數秒動畫,並且沒有之前生成動畫的閃格問題。
- Stable Video Diffusion
用來生成14
個影格576 x 1024
的影片。 - Stable Video Diffusion XT
Fine tune 自 Stable Video Diffusion 用來生成25
個影格576 x 1024
的影片。
Stable Zero 123
2023 年年尾連續發佈多個 Model , 2023年 12月發佈的 Stable Zero 123 向另一個方向發展,就是生成 3D 物件,利用單一張圖片就可以生成多個方向的圖片,即使是背面也可以順利生成。
- Stable Zero 123
此 Model 基於 Zero 123 訓練而成,而出來的效果比 Zero123 及 Zero 123 XL 更好。
Stable Diffusion Cascade
2024 年 2月 Stability AI 發佈了新一化的 Stable Diffusion Cascade,比起之前 SDXL base 跟 refiner 的兩段式生成,Stable Diffusion Cascade 採用 ABC 三段式生成,單獨處理文本生成的過程,令生成效果保持高質同時大幅提升效能,而且單一 Model 已經可以生成不同風格的圖片,所以不像 1.5
及 SDXL 有大量 fine tune Model,但其能力已經超越 SDXL 水準。
Stable Diffusion XL Lightning (SDXL Lightning)
在 SDXL Turbo 推出後,雖然令 SDXL 生成速度快如 SD 1.5
,但是其畫質及生成細緻畫面會濛糊的問題令人卻步。
- SDXL Lightning
由 ByteDance 開發的 SDXL-Lightning 不單跟 SDXL Turbo 一樣可以 4~8 步內完成,並保持生成效果高質素1024 x 1024
的圖片,獲得不少開發者青睞,所以也有不少以 SDXL Lightning 為藍本 fine tune 的 Model。
Stable Diffusion 3
Stability AI 在發佈 Stable Diffusion Cascade 後不久,2024 年 2 月就發佈了 Stable Diffusion 3 的預覽,並在 2024 年 4 月在 Stability AI Developer Platform 以 API 形式發佈了 Stable Diffusion 3,正式公開給公眾使用,是第一隻沒有 open source 的 Stable Diffusion Model,同時 CEO 的離去,令人懷疑 Stable Diffusion 3 會不會有 open source 的一日。
- Stable Diffusion 3
只有在 Stability AI 提供的 API 中使用,超越以前所有 Model 的畫質,強大的文字識別能力。 - Stable Diffusion 3 Turbo
在推出 API 同時登場的 Turbo 版本,能以更快的速度生成圖片,同時保持 Stable Diffusion 3 的強大能力。 - Stable Diffusion 3 Medium
首個 Open Source 的 Stable Diffusion 3 Model,雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半,但因為配合 T5XXL 的 text encoder ,對自然語言的理解能力大增。
Stable Video 3D
2024年 3月 Stability AI 發佈了 Stable Video 3D,結合 Stable Video Diffusion 及 Stable Zero 123 的技術,利用單一圖片生成一段可以 360 度旋轉的動畫。
- Stable Video 3D
使用一張靜態的圖片,就可以生成21
個影格576 x 576
的動畫。
Cos Stable Diffusion XL
2024 年 4月 Stability AI 發佈了 Cos Stable Diffusion XL,一款基於 SDXL 使用 Cosine-Continuous EDM VPred schedule fine tune 而成。特徵是可以生成純黑至純白的影像。
- Cos Stable Diffusion XL 1.0
基於 SDXL fine tune 而成。 - Cos Stable Diffusion XL 1.0 Edit
跟 Cos Stable Diffusion XL 同時推出,特點是使用作 img2img 的 model 可以不用任何 mask 或 ControlNet 的情況下做到 inpaint 的效果。
直到 2024 年 5月所推出的 Stable Diffusion Model
Model 名稱 | 推出日期 | 開發者 | 連結 |
---|---|---|---|
Latent Diffusion | 2022 年 7 月 | CompVis | Github |
Stable Diffusion 1.1 | 2022 年 8 月 | CompVis | HuggingFace |
Stable Diffusion 1.2 | 2022 年 8 月 | CompVis | HuggingFace |
Stable Diffusion 1.3 | 2022 年 8 月 | CompVis | HuggingFace |
Stable Diffusion 1.4 | 2022 年 8 月 | CompVis | HuggingFace |
Stable Diffusion 1.5 | 2022 年 10 月 | RunwayML | HuggingFace |
Stable Diffusion 1.6 | 2023 年 11 月 | Stability AI | API |
Stable Diffusion 2.0 | 2022 年 11 月 | Stability AI | HuggingFace |
Stable Diffusion 2.1 | 2022 年 11 月 | Stability AI | HuggingFace |
Stable Diffusion XL 0.9 | 2023 年 6 月 | Stability AI | HuggingFace |
Stable Diffusion XL 1.0 | 2023 年 7 月 | Stability AI | HuggingFace |
Stable Diffusion XL beta 2.2.2 | 2023 年 11 月 | Stability AI | API |
Stable Image Core | 2024 年 3 月 | Stability AI | API |
Stable Diffusion XL Turbo | 2023 年 11 月 | Stability AI | HuggingFace |
Stable Diffusion Turbo | 2023 年 11 月 | Stability AI | HuggingFace |
Stable Video Diffusion | 2023 年 11 月 | Stability AI | HuggingFace |
Stable Video Diffusion XT | 2023 年 11 月 | Stability AI | HuggingFace |
Stable Zero 123 | 2023 年 12 月 | Stability AI | HuggingFace |
Stable Diffusion Cascade | 2024 年 2 月 | Stability AI | HuggingFace |
SDXL Lightning | 2024 年 2 月 | ByteDance | HuggingFace |
Stable Diffusion 3 | 2024 年 2 月 | Stability AI | API |
Stable Diffusion 3 Turbo | 2024 年 2 月 | Stability AI | API |
Stable Diffusion 3 Medium | 2024 年 6 月 | Stability AI | HuggingFace |
Stable Video 3D | 2024 年 3 月 | Stability AI | HuggingFace |
Cos Stable Diffusion XL | 2024 年 4 月 | Stability AI | HuggingFace |
連同沒公開的幾個版本,其實 Stable Diffusion 在短短兩年間推出了超過 20 個版本,你最喜歡使用的版本又是那一個呢?
2024 年 6 月12 日更新
- Stable Diffusion 3 Medium
首個 Open Source 的 Stable Diffusion 3 Model,雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半,但因為配合 T5XXL 的 text encoder ,對自然語言的理解能力大增。