到底 Stable Diffusion 有多少個版本?

Stable Diffusion 在推出短短兩年間已經推出了多個版本,最為人熟悉的就是 Stability AI 推出的 1.5 跟 SDXL 。那麼除此之外,還有什麼版本呢?就由最初 Stable Diffusion 的起源開始說起。

到底 Stable Diffusion 有多少個版本?
到底 Stable Diffusion 有多少個版本?

Stable Diffusion 在推出短短兩年間已經推出了多個版本,最為人熟悉的就是 Stability AI 推出的 1.5SDXL 。那麼除此之外,還有什麼版本呢?就由最初 Stable Diffusion 的起源開始說起。


沒有 Version 1.0 的 Stable Diffusion

追溯最舊版本的 Stable Diffusion 就是由 CompVis 發佈的 1.1 版本,既不是由 Stability AI 推出,也不是由 version 1.0 開始,因為在此之前其實是叫 Latent Diffusion,因為 Stable Diffusion 本來就是一種 Latent Diffusion Model (LDM)。

同樣由 CompVis 開發的 Latent Diffusion 才是真正的 Stable Diffusion 1.0 ,而且一開始已經有 Text-to-Image 及 Inpaint 的功能存在。Latent Diffusion 並沒有再更新或新的版本,因為接下來就推出了 Stable Diffusion 。

Latent Diffusion

Stable Diffusion 1.1, 1.2, 1.3, 1.4

在 Latent Diffusion 推出後不久,2022 年 8 月 CompVis 就接連推出了四個版本的 Stable Diffusion。越高的版本編號使用更多的步數來訓練,出來的效果亦比較好。

  • Stable Diffusion 1.1
    使用了 237000 步 256 x 256 及 197000 步 512 x 512 來訓練。
  • Stable Diffusion 1.2
    使用了 515000 步 512 x 512 訓練,並使用了 laion-improved-aesthetics 作為 dataset。
  • Stable Diffusion 1.3
    1.2 的改良版,使用了 195000 步 512 x 512 的圖來訓練,並使用了 laion-improved-aesthetics 作為 dataset,減少了 10% 文字調節。
  • Stable Diffusion 1.4
    1.2 的改良版,使用了 225000 步 512 x 512 來訓練,並使用了 laion-aesthetics v2 5+ 作為 dataset,減少了 10% 文字調節。

Stable Diffusion 1.5

2022 年 10 月時,RunwayML 推出了最廣為人知的 Stable Diffusion 1.5,是早期最多使用來用來 fine tune 訓練的版本,甚至比之後推出的版本更受歡迎。不過 Stable Diffusion 1.5 後, RunwayML 及 CompVis 也退出了 Stable Diffusion 的開發了。

  • Stable Diffusion 1.5
    也是 1.2 的強化版,採用了 595000 步 512 x 512laion-aesthetics v2 5+ dataset 並減少了 10% 文字調節訓練而成。

Stable Diffusion 2.0, 2.1

一直以為是 Stable Diffusion 正式官方的 Stability AI。其實 2022年 11 月才第一次推出的 Model 是 Stable Diffusion 2.0 及同年 12月的 2.1,然而這兩款 Model 因為容量比 1.5 大但沒有沒 1.5 好,一直都很少人使用,也鮮有相關的 extensions 會支援 2.0/2.1

  • Stable Diffusion 2.0
    原先以 550000 步 256 x 256 訓練後再以 850000 步的 512 x 512 的圖片加以訓練出 base 版本。後來再以 base model 改良,使用 150000 步 v-objective 訓練及 768 x 768 大小的 dataset 訓練 140000 步。
  • Stable Diffusion 2.1
    以 2.0 為基礎 fine tune 而成,並以相同 dataset 追加了 55000 步的訓練及 155000 步的額外步數來 fine tune。
Stable Diffusion 2

Stable Diffusion XL (SDXL)

2023 年 6月繼 Stable Diffusion 1.5 後另一個強大的 Model,SDXL 分別以 600000步 256 x 256 和 200000 步 512 x 512 大小的圖片 Dataset 訓練及剪裁而成,適合生成 1024 x 1024 大小或長闊總和等於 2048 的圖片,並將生成過程分成 base 及 refiner 兩步,生成圖片質素大大提升。而且 LoRA 及 ControlNet 也對 SDXL 提供完善的支援,所以使用者人數不斷增加。

  • Stable Diffusion XL 0.9 base / refiner
    SDXL 的預覽版,只供早期測試用,生成效果明顯比正式版差,所以使用者不多。
  • Stable Diffusion XL 1.0 base /refiner
    SDXL 正式版,強大的生成效果,比之前的 Model 都有更強的文字理解能力,可以使用自然言語來作 prompts,也比 0.9 版本有更佳的效能。
  • Stable Diffusion XL beta 2.2.2
    非公開版本,只能在 Stability AI Developer Platform v1 版的 API 中使用,將 engine_id 設定為 stable-diffusion-xl-beta-v2-2-2 才能使用,是 SDXL 的 fine tune 版本。
  • Stable Image Core
    另一個非公開的 SDXL Model,只能在 v2 API 中使用,據官方說明是 SDXL 的 fine tune 版本。
SDXL

Stable Diffusion 1.6

這個版本相信比較少人知道,因為這不是一個 open source 的版本,其實是 Stability AI Developer Platform 在 2023年 11月發佈,只能在 v1 版的 API 可以使用 (最新 API 為 v2)。

  • Stable Diffusion 1.6
    是 Stable Diffusion 1.5 的 fine tune 版本,據說能生成比 1.5 更好的圖片。
Stable Diffusion 1.6

Stable Diffusion XL Turbo (SDXL Turbo)

在 2023 年 11 月能加快生成的 LCM (Latent Consistency Models) 推出後,Stability AI 也推出了高速生成圖片,將一般 30~40步的生成步數,大幅減少到 1~4步。

  • SDXL Turbo
    從 SDXL 加上 Adversarial Diffusion Distillation (ADD) 技術蒸餾而成,能大幅減少生成圖片所需的步數,但只能生成 512 x 512 的圖片,效果也略為濛糊。
  • SD Turbo
    Stable Diffusion 2.1 的 Turbo 版本,意外地官方會推出 2.1 版本,但跟 2.1 一樣也很少使用者。
SDXL Turbo

Stable Video Diffusion (SVD)

在動畫 Model Animatediff 推出後不久,2023年 11月 Stability AI 推出了首個 img2vid 的動畫 Model Stable Video Diffusion,只需一張圖片即可生成數秒動畫,並且沒有之前生成動畫的閃格問題。

Stable Video Diffusion

Stable Zero 123

2023 年年尾連續發佈多個 Model , 2023年 12月發佈的 Stable Zero 123 向另一個方向發展,就是生成 3D 物件,利用單一張圖片就可以生成多個方向的圖片,即使是背面也可以順利生成。

Stable Zero 123

Stable Diffusion Cascade

2024 年 2月 Stability AI 發佈了新一化的 Stable Diffusion Cascade,比起之前 SDXL base 跟 refiner 的兩段式生成,Stable Diffusion Cascade 採用 ABC 三段式生成,單獨處理文本生成的過程,令生成效果保持高質同時大幅提升效能,而且單一 Model 已經可以生成不同風格的圖片,所以不像 1.5 及 SDXL 有大量 fine tune Model,但其能力已經超越 SDXL 水準。

Stable Diffusion Cascade


Stable Diffusion XL Lightning (SDXL Lightning)

在 SDXL Turbo 推出後,雖然令 SDXL 生成速度快如 SD 1.5 ,但是其畫質及生成細緻畫面會濛糊的問題令人卻步。

  • SDXL Lightning
    由 ByteDance 開發的 SDXL-Lightning 不單跟 SDXL Turbo 一樣可以 4~8 步內完成,並保持生成效果高質素 1024 x 1024 的圖片,獲得不少開發者青睞,所以也有不少以 SDXL Lightning 為藍本 fine tune 的 Model。
SDXL Lightning ⚡比 SDXL Turbo 更快更好
在 2023 年底 SDXL Turbo 才首次亮相。不足三個月一個更優秀和更迅速的 SDXL Lightning 閃電般誕生。這款創新模型能夠在短時間內生成優質圖像,提供從 1 到 8 步的選擇。再跟 LoRA 和 Unet 進行整合,SDXL Lightning 使用家能夠以閃電般的效率生成圖像。
SDXL Lightning

Stable Diffusion 3

Stability AI 在發佈 Stable Diffusion Cascade 後不久,2024 年 2 月就發佈了 Stable Diffusion 3 的預覽,並在 2024 年 4 月在 Stability AI Developer Platform 以 API 形式發佈了 Stable Diffusion 3,正式公開給公眾使用,是第一隻沒有 open source 的 Stable Diffusion Model,同時 CEO 的離去,令人懷疑 Stable Diffusion 3 會不會有 open source 的一日。

  • Stable Diffusion 3
    只有在 Stability AI 提供的 API 中使用,超越以前所有 Model 的畫質,強大的文字識別能力。
  • Stable Diffusion 3 Turbo
    在推出 API 同時登場的 Turbo 版本,能以更快的速度生成圖片,同時保持 Stable Diffusion 3 的強大能力。
  • Stable Diffusion 3 Medium
    首個 Open Source 的 Stable Diffusion 3 Model,雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半,但因為配合 T5XXL 的 text encoder ,對自然語言的理解能力大增。
Stable Diffusion 3 API 搶先登場
萬眾期待的 Stable Diffusion 3,日前已經在 Stability AI Developer Platform API 以 API 搶先發佈,看來跟傳聞一樣未必會以 open source 形式公開。
Stability AI 公開 Stable Diffusion 3 Medium 下載
下載及使用 Stable Diffusion 3 Medium 的教學。
Stable Diffusion 3

Stable Video 3D

2024年 3月 Stability AI 發佈了 Stable Video 3D,結合 Stable Video Diffusion 及 Stable Zero 123 的技術,利用單一圖片生成一段可以 360 度旋轉的動畫。

  • Stable Video 3D
    使用一張靜態的圖片,就可以生成 21 個影格 576 x 576 的動畫。
Stable Video 3D
生成式動畫 3D 化,Stable Video 3D 登場
Stability AI 宣布發布其最新模型 Stable Video 3D (SV3D),專為渲染 3D 影片而設計。 SV3D 在先前 Stable Video Diffusion 的基礎上引入了新的深度,能夠從單一影像輸入建立和轉換多視圖 3D 視訊。

Cos Stable Diffusion XL

2024 年 4月 Stability AI 發佈了 Cos Stable Diffusion XL,一款基於 SDXL 使用 Cosine-Continuous EDM VPred schedule fine tune 而成。特徵是可以生成純黑至純白的影像。

  • Cos Stable Diffusion XL 1.0
    基於 SDXL fine tune 而成。
  • Cos Stable Diffusion XL 1.0 Edit
    跟 Cos Stable Diffusion XL 同時推出,特點是使用作 img2img 的 model 可以不用任何 mask 或 ControlNet 的情況下做到 inpaint 的效果。
Cos Stable Diffusion XL 及 Edit 登場,重新定義 inpaint
Stability AI 又推出一款新的 Checkpoint Model - Cos Stable Diffusion XL,Cos 的意思就是 Cosine-Continuous。其中最大賣點就是 Cos Stable Diffusion XL Edit 版整,使用這個 Checkpoint Model 以全新的方法去進行 inpaint,不用落 mask,不用 controlnet,直接用 prompt 就可以做到 inpaint 效果!

直到 2024 年 5月所推出的 Stable Diffusion Model

Model 名稱 推出日期 開發者 連結
Latent Diffusion 2022 年 7 月 CompVis Github
Stable Diffusion 1.1 2022 年 8 月 CompVis HuggingFace
Stable Diffusion 1.2 2022 年 8 月 CompVis HuggingFace
Stable Diffusion 1.3 2022 年 8 月 CompVis HuggingFace
Stable Diffusion 1.4 2022 年 8 月 CompVis HuggingFace
Stable Diffusion 1.5 2022 年 10 月 RunwayML HuggingFace
Stable Diffusion 1.6 2023 年 11 月 Stability AI API
Stable Diffusion 2.0 2022 年 11 月 Stability AI HuggingFace
Stable Diffusion 2.1 2022 年 11 月 Stability AI HuggingFace
Stable Diffusion XL 0.9 2023 年 6 月 Stability AI HuggingFace
Stable Diffusion XL 1.0 2023 年 7 月 Stability AI HuggingFace
Stable Diffusion XL beta 2.2.2 2023 年 11 月 Stability AI API
Stable Image Core 2024 年 3 月 Stability AI API
Stable Diffusion XL Turbo 2023 年 11 月 Stability AI HuggingFace
Stable Diffusion Turbo 2023 年 11 月 Stability AI HuggingFace
Stable Video Diffusion 2023 年 11 月 Stability AI HuggingFace
Stable Video Diffusion XT 2023 年 11 月 Stability AI HuggingFace
Stable Zero 123 2023 年 12 月 Stability AI HuggingFace
Stable Diffusion Cascade 2024 年 2 月 Stability AI HuggingFace
SDXL Lightning 2024 年 2 月 ByteDance HuggingFace
Stable Diffusion 3 2024 年 2 月 Stability AI API
Stable Diffusion 3 Turbo 2024 年 2 月 Stability AI API
Stable Diffusion 3 Medium 2024 年 6 月 Stability AI HuggingFace
Stable Video 3D 2024 年 3 月 Stability AI HuggingFace
Cos Stable Diffusion XL 2024 年 4 月 Stability AI HuggingFace

連同沒公開的幾個版本,其實 Stable Diffusion 在短短兩年間推出了超過 20 個版本,你最喜歡使用的版本又是那一個呢?


2024 年 6 月12 日更新

  • Stable Diffusion 3 Medium
    首個 Open Source 的 Stable Diffusion 3 Model,雖然訓練的資料量只有 Stable Diffusion 3 Large 的一半,但因為配合 T5XXL 的 text encoder ,對自然語言的理解能力大增。