如題
就是純來黑的
看了一下被採訪的人 美國亞裔不意外香蕉人
美國這些搞生成式ai的就是被看破手腳
尤其是那個奧特曼 就是來純搞錢的
直接看deepseek內部人員 截了三點
在去年五月的deepseekv2推出時
在知乎的回答
——————-
羅福莉
DeepSeek
- 親自答 此回答由問題相關方親自撰寫
今天忙飛,深夜,簡單寫幾點:
1. 單論 DeepSeek-V2 模型*的中文水平(來自 20 多個微信群用戶反饋),是真實處在
國內外閉源模型的第一梯隊(GPT4、文心 4.0*等),因為沒做 RAG(檢索增強*)等功能
,所以實際在官網(@deepseek.com)的體感可能略微沒那麼驚艷,但這不妨礙 API 效果
哦!外加 1 元 / 百萬輸入 Tokens 的價格,只有 GPT4 價格的 1/100,性價比之王!
2. 怎麼兼顧模型效果和成本的?基本純靠:模型結構創新(MLA+DeepSeekMoE)+ 超強In
fra。MLA妙就妙在,它既是 training efficient MQA,也是 inference efficient MHA
。從今天起,放棄MHA/GQA,全面擁抱MLA吧。同時,不嚴謹來說,DeepSeekMoE也算是開
啟了“共享expert+細粒度expert分割”的sparse框架風