使用 Llama 3 來生成 Prompts
在 Meta open source 推出 Llama 3 後,很多相關的應用程式都應運而生,現在最常用的 ComfyUI 及 Automatic1111/forge 都有可以使用 Llama 3 來豐富你的 prompts,而且不用擔心複雜的操作,因為已經有相關 extensions 推出,只需簡單的安裝過程即可使用。
在 Meta open source 推出 Llama 3 後,很多相關的應用程式都應運而生,現在最常用的 ComfyUI 及 Automatic1111/forge 都有可以使用 Llama 3 來豐富你的 prompts,而且不用擔心複雜的操作,因為已經有相關 extensions 推出,只需簡單的安裝過程即可使用。
什麼是 Llama 3?
Llama 3 是 Meta 公司 open source 的大型語言模式 ( Large Language Model ),在特定條件下可以免費商用(每月使用量七億次以下)。Meta Llama 3 還有 8B/70B/400B 版本。在各位方面跟 Google 的 Gemma/Gemini,Mistral 及 Claude 3 Sonnet 比較都來得要好,而且在本機只需有 4GB GPU 就能順利運行。
安裝 Ollama
Ollama 是一個幫助你安裝 Llama 3 的應用程式,你可以在以下連結下載你作業系統的版本。
下載 llama3_ifai_sd_prompt_mkr_q4km
啟動 Ollama 後可以到 Terminal 執行以下指令
ollama run impactframes/llama3_ifai_sd_prompt_mkr_q4km
然後就會下載 llama3_ifai_sd_prompt_mkr_q4km
到你電腦,大約 4.9GB 容量。
此 Model 融合了 Llama 3 及 五萬個高質的 Stable Diffusion Prompts 訓練,以確保輸出高性能及質素的 prompts。
安裝完成後就可以馬上跟 Llama 3 對談,由於是專門為 prompts 而設,所以我說出 1girl
後,Llama 3 就用 prompts 詳盡地描述了1girl
。
Prompts: Adorable, energetic young girl, bright smile, curly brown hair, standing alone in a lush green forest glade, wearing vibrant flower garland around her neck, looking directly at the viewer with sparkling eyes, surrounded by blooming wildflowers, sunlight filtering through trees above.
安裝 Extensions
但總不可以叫人每次都手動剪貼 prompts 費時失事,所以以下就會有安裝 ComfyUI node 及 Automatic1111 StableDiffusionWebUI / Forge 的說明,幫助大家簡單地使用 Llama 3 。
Automatic1111 StableDiffusion WebUI / Forge 版本
WebUI / Forge 可以共用同一個 extension,而且操作也是一模一樣的,所以使用哪一個都可以依照此教學去進行安裝。
去 Extensions 頁面 Available 中按 Load from
然後 search IF_prompt_MKR
就可以找到安裝。
安裝完成後到 Settings > Uncategorized > iF_prompt_MKR 將 Select the API for generating prompts 設定為 Ollama。
儲存設定後我們可以到最下方 Script 中選取 iF_prompt_MKR,在 Text Model 中的 Characters 選取 iF_prompt_MKR
,Text-Model 選取 impactframes/llama3_ifai_sd_prompt_mkr_q4km:latest
,在 input prompt 中可以輸入簡單的 prompt,要注意的是打開 iF_prompt_MKR 後原有的 prompt 框將會被 iF_prompt_MKR 生成的 prompts 取代。
Styling(Optional) 中可以選取一些美化及風格 Prompts,在下面選取後會在上面列出這個風格的 prompts 也可以即時修改。
Prefix & Embeddings 及 Suffix & Loras 中可以選取些 embeddings Model 及 Lora Model,不過這些不是必須的,不使用也行。
Negative Prompt 在 選舉 neg_prompts
後就會顯示,我就選基本的 simple_negative
就夠了。
我使用 Juggernaut XL Lightning 作為 Checkpoint Model,加上基本設定,比較一下使用 Llama 3 及不使用 Llama 3 的分別。
在使用 iF_prompt_MKR 的情況下,Terminal 中會有些 prompts 相關的提示及建議給大家參考。
對比測試 1
在 iF_prompt_MKR Text Model 輸入 girl, blue sky background
做 prompts,Styling 選了 Epic
及 Photographic
,Negative Prompt 選了 simple_negative
。
如果不做用 iF_prompt_MKR 的話,只使用 girl, blue sky background
會生成怎樣的圖片?就生成將張對比一下。
的確還是有女孩跟藍天背景,但因為 prompts 太簡單而缺乏了豐富的背景及細節,女孩的表情及樣子也比較合符想像,如果沒有精確的描述使用 Llama 3 的確幫了大忙!
ComfyUI 版本
安裝 Ollama 後可以使用 ComfyUI Manager 搜尋 ComfyUI-IF_AI_tools
並安裝。
下載我預先準備好的 workflow ,用 $0 購買即可下載,想支持我的話也可以自己調整價格哦!
我就設定了一個可以同時觀察普通 Prompts 及 經 Llama 3 改良 Prompts 的結果對比,在左上角 IF Prompt to Prompt 輸入 toy cat
做 prompt,左下角選取 Juggernaut XL Lightning 作為 Checkpoint,如果不是使用 Lightning Model 的話記得修改 steps 及 cfg。embellish prompt 選了 Epic
而 style prompt 選了 `DigitalArt ` ,negative prompt 選了 simple_negative
。
在 IF Display Text 中可以見到 Llama 3 生成的 Prompts 是什麼樣子,上面的是 prompts,下面的是 negative prompts。
對比測試 2
原生 prompts 生成的玩具貓大致相同,都像一些擺設的貓玩具,而經 Llama 3 改良的 prompts 明顯生成出來的畫圖更豐富,特別是背影有大量襯托及細節照,不過部份圖片的貓過於真實沒有了玩具的感覺。
總結
在 extensions 的幫助下,可以輕鬆地利用 Llama 3 改良 prompts,雖然有時候 prompts 改良後令結果有些偏差,但整體測試結果都是令人滿意,特別是因為 prompts 太簡單而沒有對背景有所描述時,Llama 3 追加的背景描述令整幅圖片的畫面更豐富動人,未來可能會成為 Stable Diffusion 生成 prompts 不可或缺的一部份。