原文恕刪
小弟剛好最近有跟到一些台灣LLM的發展,可以補充一下關於模型的部分。聯發科的研究
單位聯發創新基地,做語言模型有一段時間了,之前有一版Breeze-7B模型,發佈了一篇
技術論文放在arxiv:
https://arxiv.org/pdf/2403.02712.pdf
論文提到這個模型是從mistral-7B 繼續訓練而成,花了7000小時的H100,灌了650GB的da
ta。如果有一半是中文,325GB,也灌了超過1000億漢字(3bytes=1word),其實很多了啦
。
然後Breexe是從Mixtral訓練而成,是更大一級的模型,論文好像還沒出,但很多公司都
有不同大小的模型,做法應該不會差太多(?)。最近有開放API試用:
https://huggingface.co/MediaTek-Research/Breexe-8x7B-Instruct-v0_1
跟ChatGPT的比較,最重要的點應該是,像Breeze-7B這種已經開源的模型,對能架伺服器
的公司來說,是用越多越賺;跟token收費的ChatGPT 用越多越貴截然不同。Breexe不知
道會不會開源就是了。
達哥的部分,沒有親自用過,但有認識的人用過。基本上就是平台,然後有一些功能,像
是讀pdf等等。就把AI推廣給更多人的東西,應該是不錯啦。