作者:
derekhsu (è¯éº—的天下無雙)
2025-01-30 00:39:16※ 引述《wenchinhsieh (windman)》之銘言:
: enAI是聊天機器人ChatGPT的開發商。
: 蒸餾技術可讓開發者利用更大、更強的模型輸出成果,在較小模型獲得更出色的表現,並
: 讓他們在特定任務上以更低廉的成本得到類似結果。
這段一定很多人沒看懂。
正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好,
近似於大模型(教師)的結果。
近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做
黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾
到1K大小好不好?
還有,他有提到「特定領域」,也就是說是只是一個限定的範圍,而不像是OpenAI或是
DeepSeek要作的是通用的LLM。
你不可能靠蒸餾的方式把模型變小還能在通用領域達到跟教師模型不相上下的水準,這
是違反自然法則的。
另外,使用OpenAI來前處理基本上已經是業界不說的常態,Github上甚至有微調方法直
接教你綁訂OpenAI來作蒸餾,只要你不要做出會威脅到OpenAI的東西,他是不會理的,
網路上幾百個開源模型都是這樣作出來的。
如果OpenAI只能找到這個理由去argue,而不是針對他釋出的權重或是演算法進行爭論,
只代表這東西是真貨。
最後是有關於證據的問題,現在的問題是,OpenAI根本不能提出證據,因為OpenAI已經
在他們的使用條款說過使用API的條款如下:
"""
根據 OpenAI 的資料使用政策,自 2023 年 3 月 1 日起,除非您明確選擇與 OpenAI 分
享您的資料,否則 OpenAI 不會使用透過 API 提交的資料來訓練或改進其模型。然而,
為了監控濫用行為,OpenAI 會將透過 API 傳送的資料保留最多 30 天,之後會將其刪除
,除非法律另有規定。
"""
也就是說,OpenAI如果拿出使用紀錄,那就表示OpenAI根本沒有遵守使用條款,偷偷紀錄
用戶的資料。
那你如果沒有保留用戶的資料,那現在是要用什麼證據來調查?