全新 Model Stable Cascade 正式發佈

Stable Cascade 是一個全新的 Text to Image Model,引入了引人注目的三階段方法,為質量、靈活性、微調和效率設立了新的標準。它優先考慮消除硬件障礙,旨在提高各種指標的性能。

全新 Model Stable Cascade 正式發佈
全新 Model Stable Cascade 正式發佈

Stable Cascade 是一個全新的 Text to Image Model,引入了引人注目的三階段方法,為質量、靈活性、微調和效率設立了新的標準。它優先考慮消除硬件障礙,旨在提高各種指標的性能。


技術突破

Stable Cascade 採用了一種新穎的三階段方法,包括 A、B 和 C 階段,徹底改變了文本轉圖像生成。該架構允許對圖像進行分層壓縮,實現了顯著的輸出,同時利用高度壓縮的潛在空間。

ABC 三段生成法

為了增強控制和效率,解耦文本條件生成(第 C 階段)與解碼到高分辨率像素空間(A 階段和 B 階段)的過程,可以單獨在 C 階段進行額外的訓練或微調,包括 ControlNets 和 LoRAs。與傳統方法相比,這種方法大幅降低了成本,同時仍然保持著高質量。


試玩 Stable Cascade

按以下連結可以直接開到 Stable Cascade 測試頁面。

Stable Cascade - a Hugging Face Space by multimodalart
Discover amazing ML apps made by the community
測試 Stable Cascade

模型變體和性能比較

C 階段和 B 階段釋放了不同的參數大小,根據硬件要求和輸出質量提供了靈活性。在評估中,Stable Cascade 在提示對齊和美學質量方面始終優於其他模型,展示了其在各種情況下的優越性。

Stable Cascade 跟 Playground v2, SDXL Turbo 發 Wurstchen v2 比較
Stable Cascasde 跟 SDXL, Playground v2 及 SDXL Turbo 比較速度

增強創造力的其他功能

除了標準的文本轉圖像生成外,Stable Cascade 還提供了圖像變體和圖像到圖像生成等功能,將其應用範圍擴展到傳統應用之外。

Stable Cascade 生成圖片

文生圖

生成 prompt Cinematic photo of an anthropomorphic penguin sitting in a cafe reading a book and having a coffee.

文生圖

參考圖生圖

以最左邊的圖為參考,生成其他相似的圖片。

參考圖生圖

圖生圖

通過將圖像加噪聲到特定程度,然後讓模型從那個起點生成。在這裡,左側的圖像加入了 80% 的噪聲,標題是:一個騎在老鼠上的人。

圖生圖

ControlNet

notebook 展示了如何使用 Stability.AI 訓練的 ControlNet,或者如何使用自己訓練的 ControlNets 進行 Stable Cascade。

Inpainting / Outpainting
Face Identity
Canny
Face Identity

LoRA

Stability.AI 還提供了我們自己的 LoRA 訓練和使用實現,可用於微調文本條件模型(C 階段)。具體而言,您可以添加和學習新的標記,並將 LoRA 層添加到模型中。此筆記本展示了如何使用訓練過的 LoRA。

訓練用的圖片,狗狗命名為 Fernando

生成為 Fernando 穿上太空衣的圖片 Cinematic photo of a dog [fernando] wearing a space suit.

太空狗狗 Fernando

圖像重建

最後,對於個人來說,這一方面可能尤其引人注目,特別是對那些有興趣從頭開始訓練自己的文本條件模型的人,也許甚至採用與我們的 C 階段不同的架構,就是利用 Stable Cascade 內嵌的 (Diffusion) 自編碼器。類似於個人如何利用 Stable Diffusion 的 VAE 來訓練自己的模型(例如,Dalle3),可以使用 A 階段和 B 階段,充分利用更高的壓縮率。這種方法能夠實現更快的模型訓練和執行,同時保持卓越的壓縮能力。

原圖

您可以將這些圖像編碼為壓縮尺寸為 4 x 16 x 24 x 24,這給您一個空間壓縮因子為 1024 / 24 = 42.67。然後,您可以使用 A 階段和 B 階段將圖像解碼回 4 x 3 x 1024 x 1024,給您以下輸出:

重建後的圖片

開源訪問和未來方向

隨著 Stable Cascade 的發布,提供了所有必要的代碼來進行訓練、微調、ControlNet 和 LoRA,促進了在 AI 圖像生成方面的進一步實驗和創新。雖然目前尚不支持商業用途,但其他圖像模型可通過 Stability AI 會員資格或開發者平台進行商業應用。


總結

Stable Cascade 在文本轉圖像生成方面代表了一個重大進步,在 AI 創造力方面設立了新的質量、效率和靈活性標準。憑藉其模塊化架構、增強的控制機制和附加功能,Stable Cascade 為人工圖像合成領域打開了無限的可能性。