Stable Diffusion

全新 Model Stable Cascade 正式發佈

Stable Cascade 是一個全新的 Text to Image Model，引入了引人注目的三階段方法，為質量、靈活性、微調和效率設立了新的標準。它優先考慮消除硬件障礙，旨在提高各種指標的性能。

Edmond Yip

Feb 14, 2024 — 6 min read

全新 Model Stable Cascade 正式發佈

技術突破

Stable Cascade 採用了一種新穎的三階段方法，包括 A、B 和 C 階段，徹底改變了文本轉圖像生成。該架構允許對圖像進行分層壓縮，實現了顯著的輸出，同時利用高度壓縮的潛在空間。

為了增強控制和效率，解耦文本條件生成（第 C 階段）與解碼到高分辨率像素空間（A 階段和 B 階段）的過程，可以單獨在 C 階段進行額外的訓練或微調，包括 ControlNets 和 LoRAs。與傳統方法相比，這種方法大幅降低了成本，同時仍然保持著高質量。

試玩 Stable Cascade

按以下連結可以直接開到 Stable Cascade 測試頁面。

模型變體和性能比較

C 階段和 B 階段釋放了不同的參數大小，根據硬件要求和輸出質量提供了靈活性。在評估中，Stable Cascade 在提示對齊和美學質量方面始終優於其他模型，展示了其在各種情況下的優越性。

Stable Cascade 跟 Playground v2, SDXL Turbo 發 Wurstchen v2 比較

Stable Cascasde 跟 SDXL, Playground v2 及 SDXL Turbo 比較速度

增強創造力的其他功能

除了標準的文本轉圖像生成外，Stable Cascade 還提供了圖像變體和圖像到圖像生成等功能，將其應用範圍擴展到傳統應用之外。

文生圖

生成 prompt Cinematic photo of an anthropomorphic penguin sitting in a cafe reading a book and having a coffee.

參考圖生圖

以最左邊的圖為參考，生成其他相似的圖片。

圖生圖

通過將圖像加噪聲到特定程度，然後讓模型從那個起點生成。在這裡，左側的圖像加入了 80％的噪聲，標題是：一個騎在老鼠上的人。

ControlNet

此 notebook 展示了如何使用 Stability.AI 訓練的 ControlNet，或者如何使用自己訓練的 ControlNets 進行 Stable Cascade。

LoRA

Stability.AI 還提供了我們自己的 LoRA 訓練和使用實現，可用於微調文本條件模型（C 階段）。具體而言，您可以添加和學習新的標記，並將 LoRA 層添加到模型中。此筆記本展示了如何使用訓練過的 LoRA。

生成為 Fernando 穿上太空衣的圖片 Cinematic photo of a dog [fernando] wearing a space suit.

圖像重建

最後，對於個人來說，這一方面可能尤其引人注目，特別是對那些有興趣從頭開始訓練自己的文本條件模型的人，也許甚至採用與我們的 C 階段不同的架構，就是利用 Stable Cascade 內嵌的 (Diffusion) 自編碼器。類似於個人如何利用 Stable Diffusion 的 VAE 來訓練自己的模型（例如，Dalle3），可以使用 A 階段和 B 階段，充分利用更高的壓縮率。這種方法能夠實現更快的模型訓練和執行，同時保持卓越的壓縮能力。