雖然下了很農場的標題
但這一篇認真的研究論文
大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎
在一年前可能沒有錯 但經過最近的突飛猛進
故事已經進入了新的轉捩點
讓我們歡迎今天的兩個主角
1. 由好心人士在四個A100跟一個小的 Danbooru dataset
在 stable diffusion 經過「不到一天」fine tune完成的 waifu diffusion
https://huggingface.co/hakurei/waifu-diffusion
2. 怕你不會下 prompt 叫你給圖片直接幫你學習文字 embedding 的 textual inversion
https://github.com/rinongal/textual_inversion
先聊聊限制
首先很明顯 這麼模型可能根本沒看過ACG的色圖
也就是只能用真人了解色的概念 在生成偏向全身圖片的時候
比例容易受到影響造成換臉效果
再來就是用 textual inversion 只能給予極少張圖學習固定概念
因為沒有對於學習概念專門的處理
能學到的東西不一定是你想要的
再來是結果 我們當然不能在這裡貼色圖
但大家不妨體會一下這套模型能做到什麼什麼程度