※ 引述《lou3612 ( )》之銘言:
: 差很多
: 一時半刻有點難說清楚
: RL比較少人說是無監督 應該說是自動監督?
: 不論如何都比supervised便宜很多很多
: deepseek只用了一點點SFT來穩定模型的行為
: 然後就全用RL來衝performance
: 所以就比一般的LLM很要省錢省非常非常多
transformer我記得不是靠遮掉某部分然後自己學
是說自動監督跟無監督差在哪
我已經都不懂惹QQ
但我只是好奇RL不是蠻久前的東西
前陣子我看幾乎都是在討論transformer
突然RL又冒出來好神奇
反清復明惹屬於是