微軟的這方法就跟Alphago的訓練方式一樣,但這僅限於單一學科數學做強化學習,而且這
類型問題一定要有標準答案才能這樣玩,藝術寫作之類的就沒辦法這樣搞,OpenAI的O1就是
大模型用這方法,希望能把推理效應帶到不同領域的資料,但現階段看來非STEM類型的還要
用別種方案當verifier 才能做強化學習
其實最早在2023/10就已經有驗證這方案是成功可行的,當時叫QStar
https://youtu.be/jByDZdRxiSs?si=zccB5yK55GW8Ffs1
OpenAI 半年前開始在X上面訓練虛擬人物
https://youtu.be/dyFqdHI9yGI?si=od2_hNMs3kuevqo_
看人格化的AI在群體環境下有沒有辦法做非STEM的強化學習
※ 引述 《jeffguoft (見習生_O7)》 之銘言:
: 標題: [問卦] 研究說AI模型已經能自我進化了耶
: 時間: Sat Jan 11 18:27:27 2025
:
: 剛看到有人整理的AI新進展
:
: 現在有研究指出小LLM可以透過deep thinking的方式自我進化
:
: 在測驗中取得比大模型還高的分數
:
: 沒有大模型監督跟人類介入
:
: 小模型都能自我進化了,不敢想像大模型也用這方式
:
: 可能隨時都要變成超級AI
:
:
: 感覺是時候要找一兩門藝術領域
:
: 或者宗教經典來鑽研了
:
: 以便失業後無縫接軌
:
: 或者不用工作後能探詢人生意義
:
: 大家做好失業的準備了嗎?
:
:
: https://i.imgur.com/MQLjNDs.png
:
: