※ 引述《amsmsk (山田頭頂的鳥大便)》之銘言:
: 人類自己臨摹跟機器臨摹很多記起來到底差在哪啊?
AI就不是臨摹啊 ==
你學過畫和玩過AI就知道兩邊相差多大了 ==
人類在畫圖的時候,不管是臨摹、素描、電繪還是其他劈哩啪啦的,
最主要還是以視覺、記憶、想像去認知各別物體的存在,然後再將它們畫出來。
然後持續畫下去,人類會越來越熟悉該如何以畫去將物體重現。
所以一進畫室老師通常不管你未來的志願是三小,
一定先教你素描靜物打穩基礎,讓你熟練將物體的外貌轉為圖畫的這個過程。
但是目前AI不是這樣,
他不是在臨摹,而是用訓練出來的資料去歸納匹配圖片該怎麼生出來。
Stable Diffusion用的是去噪,
他會先產一張很醜很雜的圖,然後一步一步去噪把圖給產出來。
https://i.imgur.com/joetEa9.png
在這個過程裡,Stable Diffusion就沒有在「畫圖」。
他對於產出的圖上面有什麼物件的認知度非常低,
只是知道這樣拼,這樣去噪產出來的圖能接近你給的條件。
所以你會看到AI畫出來的東西會出現一堆很神奇的錯誤。
像是人穿的衣服和背景糊成同一個物件、彈吉他莫名其妙憑空多一條琴頸、
打奶砲的奶子多了一顆奶頭,然後老二和奶子融合在一起之類的。
這些都是人類畫圖幾乎不可能出現的錯誤。
因為人類畫圖的時候會認知到前景和背景的不同、
正常吉他應該只有一條琴頸而且應該連在琴身上、
一個奶子應該只有一個奶頭,老二不會因為打個奶砲就和奶子融合起來。
但是目前的產圖AI不知道。
給他做額外的訓練可以盡量避免,
但是他終究還是不知道兩個奶子夾著一根老二有什麼意義,
甚至連他去噪出來的東西是奶子和老二都不太清楚。
所以AI圖惹人厭的原因除了一堆猴子亂產圖汙染環境之外。
主要還是他產圖的手段不是真正模仿人類的「畫」,
所以看久了自然會有種違和感。
特別是你自己有在產圖的話,就會知道現在要生一張AI圖有多廉價和無趣乏味 ==