阿肥碼農阿肥啦!
12月開始準備放長假了。有時間說一下Federated LLM的一些東西好了,Federated Learnin
g for LLM大概22年就有零星的研究,不過比較有綜述寫得蠻好的主要是去年港科大的一篇F
ATE-LLM把整個脈絡跟方向做一個比較具體的說明然後他們提出他們的框架。
其實說白了就是分散式計算的架構,Edge端將梯度跟損失給中央計算完後再給邊緣端更新,
差別在於為了讓Edge端跟Server傳輸量減量所以使用了parameters efficient fine tuning
的方法只更新adapter/prompt的參數而已。
然後今年大概2月比較有名的就是上海交大提出的OpenFedLLM大概就是把DPO這種離線Prefer
ence Learning 方法用到Federated LLM上。主要還是RLHF太難做到Federated Learning 上
了,所以才取巧用DPO來結合聯邦學習。
不過真的說當前聯邦學習的缺陷就是真的使用到實務上依舊無法解決LLM的幻覺問題,而且
當前大模型為了產品穩定性每一輪的疊代更新都需要進行紅隊測試跟穩定性測試,這個其實
很難再Fed的架構上做到。Fed本質上就是為了隱私問題誕生的,但他必然會失去中心化的優
勢。
差不多4醬