※ 引述《dean1990 (狄恩院長)》之銘言:
: 本魯也很好奇問了一些問題,
: 首先是比較基礎的:
: https://i.imgur.com/zKhx1A2.jpg
: 接著是大家都知道的:
: https://i.imgur.com/Tl8GRO3.jpg
: 再來是比較敏感一點的:
: https://i.imgur.com/Xm7bZC3.jpg
: 最後倒是令本魯比較意外:
: https://i.imgur.com/d43AJ24.jpg
: 中研院作為我國最高研究機構,
: 研究結論應該還算有公信力吧。
: ※ 引述《PekoraSakura (PekoMiko)》之銘言:
: : https://huggingface.co/spaces/ckiplab/CKIP-Llama-2-7b-chat
: : 不知道這研究案領多少錢?
: :
![]()
: :
![]()
: :
![]()
: : 拿別人的成功來tune一下就可以掛名中研院......
: : 有沒有掛?
對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去
跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。
第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型,
它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資
料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。
第二個錯誤的認知是把所有的LLM都當成是同一個等級,好像只要A不如B那A就不行,是
垃圾。以這個案例來說,它是Llama-2-7b跟Atom-7b模型,前面的Llama-2模型是代表它
是META出的Llama模型第二代(可商用),而7b則是說它的參數是70億個,不要以為70億
個參數很多,70億參數以LLM來說只能說是非常小的,所以答出一切亂七八糟的答案非
常正常,在7b之上,還有13b跟70b的模型參數量。
7b的模型實務上如果沒有經過finetune然後針對小範圍的特定任務,基本上就是玩具而
已。
第三,就是對於台灣的能力有誤會,做AI大概分為三個要素,模型/資料/算力。在大語言
模型方面,台灣三個都弱,模型用開源的即便是台智雲,也是用開源模型。資料方面,
繁體中文本來就在中文領域本來就是弱項(中文已經很弱了,繁體中文更弱),算力方面,
台灣有算力從頭到尾訓練LLM的不是說沒有,但跟OpenAI, META都還是非常非常遙遠的距離
,所以能做作finetune就不錯了。
這是原生llama-2的試玩網址(記得把模型調到7b來比較)
https://www.llama2.ai/
好,回歸重點,中研院在網站上就已經說過了
####
以商用開源模型Llama-2-7b以及Atom-7b為基礎,再補強繁體中文的處理能力
####
好,剛剛我說了Llam2-2-7b,那Atom-7b我剛剛沒有提到,這是什麼東西?
Atom-7b就是https://github.com/FlagAlpha/Llama2-Chinese
這個就是中國訓練出來的大語言模型,Atom-7b
中研院從頭到尾都沒有隱藏這件事,它就是基於中國訓練的Atom-7b然後再用繁體中文去
finetune出來的模型啊。
從頭到尾中研院就沒有隱藏這件事,完全不知道前面好像發現什麼新大陸一樣。