全新 Model Stable Cascade 正式發佈
Stable Cascade 是一個全新的 Text to Image Model,引入了引人注目的三階段方法,為質量、靈活性、微調和效率設立了新的標準。它優先考慮消除硬件障礙,旨在提高各種指標的性能。
Stable Cascade 是一個全新的 Text to Image Model,引入了引人注目的三階段方法,為質量、靈活性、微調和效率設立了新的標準。它優先考慮消除硬件障礙,旨在提高各種指標的性能。
技術突破
Stable Cascade 採用了一種新穎的三階段方法,包括 A、B 和 C 階段,徹底改變了文本轉圖像生成。該架構允許對圖像進行分層壓縮,實現了顯著的輸出,同時利用高度壓縮的潛在空間。
為了增強控制和效率,解耦文本條件生成(第 C 階段)與解碼到高分辨率像素空間(A 階段和 B 階段)的過程,可以單獨在 C 階段進行額外的訓練或微調,包括 ControlNets 和 LoRAs。與傳統方法相比,這種方法大幅降低了成本,同時仍然保持著高質量。
試玩 Stable Cascade
按以下連結可以直接開到 Stable Cascade 測試頁面。
模型變體和性能比較
C 階段和 B 階段釋放了不同的參數大小,根據硬件要求和輸出質量提供了靈活性。在評估中,Stable Cascade 在提示對齊和美學質量方面始終優於其他模型,展示了其在各種情況下的優越性。
增強創造力的其他功能
除了標準的文本轉圖像生成外,Stable Cascade 還提供了圖像變體和圖像到圖像生成等功能,將其應用範圍擴展到傳統應用之外。
文生圖
生成 prompt Cinematic photo of an anthropomorphic penguin sitting in a cafe reading a book and having a coffee.
參考圖生圖
以最左邊的圖為參考,生成其他相似的圖片。
圖生圖
通過將圖像加噪聲到特定程度,然後讓模型從那個起點生成。在這裡,左側的圖像加入了 80% 的噪聲,標題是:一個騎在老鼠上的人。
ControlNet
此 notebook 展示了如何使用 Stability.AI 訓練的 ControlNet,或者如何使用自己訓練的 ControlNets 進行 Stable Cascade。
LoRA
Stability.AI 還提供了我們自己的 LoRA 訓練和使用實現,可用於微調文本條件模型(C 階段)。具體而言,您可以添加和學習新的標記,並將 LoRA 層添加到模型中。此筆記本展示了如何使用訓練過的 LoRA。
生成為 Fernando 穿上太空衣的圖片 Cinematic photo of a dog [fernando] wearing a space suit.
圖像重建
最後,對於個人來說,這一方面可能尤其引人注目,特別是對那些有興趣從頭開始訓練自己的文本條件模型的人,也許甚至採用與我們的 C 階段不同的架構,就是利用 Stable Cascade 內嵌的 (Diffusion) 自編碼器。類似於個人如何利用 Stable Diffusion 的 VAE 來訓練自己的模型(例如,Dalle3),可以使用 A 階段和 B 階段,充分利用更高的壓縮率。這種方法能夠實現更快的模型訓練和執行,同時保持卓越的壓縮能力。
您可以將這些圖像編碼為壓縮尺寸為 4 x 16 x 24 x 24,這給您一個空間壓縮因子為 1024 / 24 = 42.67。然後,您可以使用 A 階段和 B 階段將圖像解碼回 4 x 3 x 1024 x 1024,給您以下輸出:
開源訪問和未來方向
隨著 Stable Cascade 的發布,提供了所有必要的代碼來進行訓練、微調、ControlNet 和 LoRA,促進了在 AI 圖像生成方面的進一步實驗和創新。雖然目前尚不支持商業用途,但其他圖像模型可通過 Stability AI 會員資格或開發者平台進行商業應用。
總結
Stable Cascade 在文本轉圖像生成方面代表了一個重大進步,在 AI 創造力方面設立了新的質量、效率和靈活性標準。憑藉其模塊化架構、增強的控制機制和附加功能,Stable Cascade 為人工圖像合成領域打開了無限的可能性。