Re: [問卦] DeepSeek怎麼一天就走下神壇?

作者: KanzakiHAria (神崎・H・アリア)   2025-01-29 22:59:10
※ 引述《tim790809 (scheduling)》之銘言:
: 耶~不是...
: 禮拜一造成全球股價大崩盤
: APP、Android排行第一的軟體
: 八卦捧到爆的AI
: 阿怎麼才過1天多8個小時就瞬間被戳破?
: 禮拜一跌的股市慢慢爬回中
: 美國巨頭紛紛指出有盜用行為?
: 新聞也都開始爆出許多問題??
: 挖靠...這比除夕特別節目還好看耶
: 所以DS到底是屌不屌啊?
: 有沒有專業一句話說明??
專業一句話就是 R1是一個"方法論"而不是模型 v3是新模型範式的概念驗證
建議先去看 LATS 或 ANPL 比較好理解什麼叫"方法論"
先講v3價值:打破了以往單一模型走scaling law 成本是近似指數或n^2誇張上升
所以AI能力要變強 原本是要暴脹式的砸錢 軍備競賽般的資本競賽
v3 open的paper說明了 用成千上百個小model集合也能做出類似效果 不用被大n懲罰
回來講R1 舉例來說 可以先看ANPL原理
ANPL讓AI變強做法是讓AI先拆解問題 再逐步解決 類似"Let's think step by step"
之前要讓LLM做深度思考一律都是COT
比如把每次LLM的輸入輸出當作一個節點
把多個節點做評分 最終選擇整條鏈評分最高的項目 即MCTS概念
這就像是alphago那樣 每次棋步後面都要估算後面幾十步對於這步的總評分(勝率)
LATS就是用LangGraph去實現MCTS的COT 這是方法論 所以可以套用任何LLM
你替換任何LLM LATS都能提升輸出成果
GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質
並非直接讓AI去隨意生成許多條節點再自我評分 而是人工先標註什麼是好推論
因此人工撰寫教科書等級的推論就是o1高成本最主要的因素
(這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD)
就像alphago master需要挖出所有頂尖對局棋譜然後數位化
R1則是捨棄了節點拆步驟思維 直接讓LLM去隨意探索可能方式
在這個情況下R1反而做出了各種有創意的推論方式
就像是alphago zero 自行探索反而下出自己一套邏輯
如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事
實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程
復現的結論也高度一致 使用越優秀的LLM當作基底 可以拿到更好的推論過程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似
因此
在那邊說不能回答64 就是根本不懂R1
你拿任何可以回答64的LLM套用R1的方法論 就拿到可以回答64的AI了

Links booklink

Contact Us: admin [ a t ] ucptt.com