Re: [問卦] DeepSeek成本這麽低的原因是啥?

作者: permoon (有志難伸優質寫手ㄉㄉ)   2025-01-30 16:21:02
※ 引述《app325 (艾波)》之銘言:
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎?
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。
他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料,
再加上創新的Fine Tuning技巧去進行優化的,
並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。
的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法
但絕對不是全面的輾壓或者一騎絕塵,更像是....
告訴美國,你他媽的封鎖我算力,我還是辦法繞過去幹到差不多的事情啦!!!
但即使做到這種程度,也只能說在這階段沒有輸,
要再往下走到AGI,沒有算力還是不行的,除非中國先把量子電腦真正的商用化。

Links booklink

Contact Us: admin [ a t ] ucptt.com