Stability AI 公開 Stable Diffusion 3 Medium 下載

下載及使用 Stable Diffusion 3 Medium 的教學。

Stability AI 公開 Stable Diffusion 3 Medium 下載

在本月初於台北國際電腦展2024活動期間,Stability AI 宣布了一個令人振奮的消息,並確實公開 Stable Diffusion 3 的公開日期為7月12日。 Stability AI 終於正式提供了 Stable Diffusion 3 Medium 的下載版本。這個新版本受到眾多 AI 和技術社群的熱切期待。

要獲取 Stable Diffusion 3 Medium,用戶現在可以訪問 HuggingFace 網站,該網站提供詳細的說明和所需文件的下載方式。


下載 Stable Diffusion 3 Medium

進入 Stability AI 的 Huggingface 頁面。

stabilityai/stable-diffusion-3-medium at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

首先,您需要同意僅在非商業用途中使用此模型。

現在您可以下載 Stable Diffusion 3 Medium 檢查點模型了!


這些模型有什麼不同?

進入下載頁你會發現有很多不同版本的 Model,現在簡單介紹一下:

  • sd3_medium.safetensors 包含 MMDiT 和 VAE 權重,但不包括任何文本編碼器,您需要自行下載 T5XXL 文本編碼器。
  • sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的權重,包括 T5XXL 文本編碼器的 fp8 版本,提供了質量和資源需求之間的平衡。
  • sd3_medium_incl_clips_t5xxlfp16.safetensors 比 fp8 版本使用了 fp16 版本的 T5XXL ,效果比 fp8 版本更好,但需要更多的 GPU 來運行。
  • sd3_medium_incl_clips.safetensors 包含所有必要的權重,但不包括 T5XXL 文本編碼器。它需要的資源最少,但模型的性能在沒有 T5XXL 文本編碼器的情況下會有所不同。
  • T5XXL 是 Google 推出的一種新型文本編碼器,它在自然語言處理 (NLP) 中顯示出強大的技術優勢。

ComfyUI 的官方工作流程

開始之前,請記得將 ComfyUI 更新至最新版本。

stabilityai/stable-diffusion-3-medium at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

官方 Basic Workflow

您需要下載 sd3_medium.safetensors 並將其放入 /models/checkpoints

您還需要從 text_encoders 資料夾中下載 clip_g.safetensorsclip_l.safetensorst5xxl_fp16.safetensors 並將它們放入 /models/clip

官方 workflow 預設效果

不使用官方 Workflow

如果您使用 sd3_medium_incl_clips.safetensors,這樣您也可以使用正常工作流程,因為已經內置了舊版的 text encoder (Clip L / Clip G)。

如果您想在正常工作流程中使用 T5XXL,可以嘗試 sd3_medium_incl_clips_t5xxlfp8.safetensors,已經內置了 T5XXL fp8sd3_medium_incl_clips_t5xxlfp16.safetensors 內置 T5XXL fp16 。

自訂 workflow

使用 T5XXL 模型時,理解自然語言提示的能力會顯著增強。然而,這種改進需要更多的記憶體。由於 Stable Diffusion 3 Medium 解釋提示的方式與 SDXL 等模型不同,因此需要更多時間來學習如何充分發揮 Stable Diffusion 3 的潛力。

Stable Diffusion 3 Medium 處理提示的獨特方式意味著用戶需要投入時間來實驗並理解這個新模型的細微差別。這種學習曲線是必要的,以實現最佳結果並利用 Stable Diffusion 3 Medium 提供的先進功能。


關於 prompts 中的 clip_l 及 clip_g 可以看看此文章

ComfyUI 上 Text G 跟 Text L Prompts 的關係
在 ComfyUI 上使用 Clip Text Encode SDXL Node 時,會兩個不同的 Prompts 輸入格,一個叫 text_g 另一個叫 text_l,兩個框格輸入相同的 Prompts 也會有不同的效果,到底兩個 Prompts 之間有什麼關係,我們又應該在兩個格中輸入什麼 Prompts 會比較好呢?