Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套

作者: alex780312 (Alex)   2023-10-14 15:46:23
※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
: 2. 訓練模型會先卡什麼?
: 目前,台灣任何一個單位,根本沒能力研發LLM模型架構。台智雲,中研院,或其他任何單位。
: 都是基於LLaMA2上去 fine-tune的。
: 所以模型都是 7B 13B 70B大小。
: 而是大概都是用QLORA或相關技術去 fine-tune的。這些都是open source直接去套而已,
: 完全沒有任何技術門檻。
: (只有誰願意採購幾千萬硬體的門檻而已)
身為LLM猴子,大多同意DrTech的看法,只是台智雲這塊有點不一樣。
其實台智雲有幾乎一半台灣杉2號的機器可以用,
也克服很多開源軟體無法解決的問題;例如硬體是V100不是A100,
又要能夠做3D model parallelism,又要同時能跑LoRA,RLHF,
在100Gbps網路中維持GPU使用率滿載等等。在meta llama出來之前,
我們還是跑BLOOM-176B,硬體需求更高。
我想說的是,在LLM訓練階段,許多硬體門檻已經被台智雲推倒了,
台灣杉2號還能夠做很多事!我覺得可惜的是政府,學界,企業的整合部份,
因為不同單位考量的利益是不同的,企業只做特定任務finetune是因為
客人就需要這種東西,至於基礎模型的訓練無法在短時間內看到好處,
比較適合政府和學研單位主導。LLM猴子什麼咖都不算,在公司內拍桌說要
開源也沒人聽(還好沒有被開除XD)
例如TAIDE是很有潛力當個統合協調的角色,看起來官學合作已經成型,
只剩業界無法進去?縱使業界在台灣杉2號上已經有許多突破,
但我們沒辦法有機會透過某種合作的形式讓學界也使用我們的技術,
然後公司又不像學界那樣以論文產出為目標,所以很難說服老闆去
做些"開源"的工作,自然也不會做些純研究的項目。
台灣杉2號絕對能夠做到清理commoncrawl、FP16精度訓練不用QLoRA、
訓練超過176B參數的大模型。希望大人物們(產官學)能夠多多思考和溝通,
看怎麼促成更多人的合作囉。
作者: ToastBen (吐司邊)   2023-10-14 23:27:00
說個笑話:產官學
作者: DrTech (竹科管理處網軍研發人員)   2023-10-15 00:12:00
很好的討論,讓大家看到更多想法
作者: zanyking (最後的六年級生)   2023-10-15 00:29:00
推,希望看到更多通用的合作與嘗試
作者: alex780312 (Alex)   2023-10-15 10:24:00
補充一下,臺智雲像是官+產的合作,目的在充分發揮台灣杉二號使用率,但缺乏學研角色。現況是台灣杉的資源被切成兩半各做各的,臺智雲考量time to market ,而TAIDE 可以慢慢打磨,路線不同
作者: Csongs (西歌)   2023-10-16 15:44:00
推一個
作者: sbL (sbl)   2023-10-17 02:09:00
作者: adamlin120 (Adam)   2023-10-23 01:49:00

Links booklink

Contact Us: admin [ a t ] ucptt.com