作者:
icrose (嗯,咳咳)
2025-02-07 13:01:48我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現
包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到
這才是最奇怪的。
今日鼓點:大A乘風直上,就像哪吒2的票房
※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
: ※ 引述《LimYoHwan (gosu mage)》之銘言:
: 也是只看 fine-tune 1000題,一次的成本。
: 而且,試了不知道幾次,
: 終於找到一次,
: 可以在部分考卷上贏一個很爛的模型。
: 媒體文章中,忽略不計的成本,至少包含:
: base模型訓練的成本(至少占成本99%)
: 研究人員不斷試錯找1000題的成本。
: 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。
: 其他錯誤資訊,媒體的內文寫:
: 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。
: 完全錯誤。原始論文寫:
: 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。
: 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。
~~~~~~~~~~~~~~~~~~~~~~~~~
yes,u r right
: 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。
: 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調
: 結論:
: 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。
: 一堆外行人,連論文都不看,在造假新聞。
: 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。