※ 引述 《newwu (說不定我一生涓滴廢文)》 之銘言:
: 1.模型缺乏人類的先驗知識,例如我們知道耳機長怎樣,即使沒看過耳機的ACG圖
: 2.缺乏人類的創造力,因為人所能接受的ACG圖範圍一定比現在大得多,
: 缺乏人類的經驗知識或本能,以現在的做法機器無法拓展新的創作範圍
:
: 接下來簡單講一下,我所理解的主流生成模型
: 2. Diffusion model (見圖三)
: 這個東西就是現在主流的這些動漫圖生成器的原理
: 這東西比較不直觀 數學也很複雜
: 簡單來說,
: 在訓練這模型時,先讓原本那些樣本點隨機擴散
: 最後變成一個高斯分佈 (ACG圖退化成雜訊)
: 同時紀錄擴散過程
: 之後再訓練一個模型學習逆擴散,把高斯分佈還原回ACG圖範圍
: 之後你高斯分佈取一點(丟一張雜訊給模型)
: 模型就會自動把你的圖推回去那範圍(變成ACG圖了)
這個加噪降噪的過程可以用數學方程表達
比如說雷太獵奇奶的概念
人類的理解就是巨乳、氣球
diffusion的理解則是一堆數學式
同樣的概念,不同的表達方式
人會參考過去經驗或既定習慣作畫,這些參考或習慣就是拼圖塊,機器從何不是
你畫一個雷太獵奇奶的大鳳擺jojo立,這讓人或AI畫都是在拼拼圖