的確會讓人好奇DeepSeek-V3的訓練方式,
但成本降低如此之多,另外一個思考點,是不是除了科技巨頭外,
更多公司願意投入資本支出來建立自己的模型?
而且隨著技術發展,模型建立的成本一定會快速下降。
DeepSeek-V3比較的 Claude.ai/Qwen2.5/LLaMA3.1
這些模型都已經訓練一段時間,而且也在很多領域展開應用,
這裡面一定會使用到舊有的演算法機制,效能可能沒新的好。
而DeepSeek-V3是重新開發的,當然可以用現在更好的演算法,
簡單說,就是站在巨人的肩膀上看的更遠,其實不需要太驚訝。
最後講個政治不正確的東西,
DeepSeek-V3 會受到中國的有關單位進行監管,
論文中沒有明確指出數據集的篩選標準,
但可以推測,DeepSeek-V3的訓練數據集可能經過一定程度的篩選,
以符合中國的監管要求。
可能會降低數據集的多樣性,
當然也能提高數據的來源品質和一致性,
訓練速度速度與成本肯定更快更低。
所以模型應該有可能存在偏差,而且某些政治敏感問題無法回答。
例如你問他64天安門,這模型會不會無法回答?
你問他習近平的的智商,這模型搞不好吹高大尚?
先不用太擔心這個啦,不過中文領域的部分,應該毫無競爭對手,
中國市場大資料量龐大,要訓練通用型中文AI絕對是一把手。
※ 引述《Latte7 (nonono)》之銘言:
: https://www.ettoday.net/amp/amp_news.php7?news_id=2882228&ref=mw&from=google.c
: om
: 中國展示了他們的新模型
: 重點在它極低的成本
: 好奇這樣是不是代表科技巨頭們不需要這麼多晶片?
: 會對台積電的晶片需求有影響嗎