Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢? bluebluelan PTT批踢踢實業坊

Re: [問卦] AI領域中的LLM會讓英語系國家更具優勢?

作者: bluebluelan (新陰流大目錄免許皆傳) 2024-07-11 14:44:13

其實光是中文資料不斷地消失這件事情
用中文資料訓練的LLM效果自然不會太好
中文的網路資料這幾年不斷消失原因無他很多中文圈的網路公司沒錢收掉
這些資料就可能從世界上消失等於中文的訓練資料無法累積
資料不夠模型再大也沒用
現在英文圈把整個網路的文本資料拿來訓練不夠開始再把影片轉化成文字抓來練
而且網路公司基本上都是英文圈的資料最多最有錢要賺錢也是優先做英文的
現在網路公司是美國獨大中文的LLM不是他們加減做就是中國的網路公司做
台灣現在沒有公司有那個財力從頭做一個llama2等級的模型
※ 引述《wa007123456 (大笨羊)》之銘言：
: 大型語言模型(LLM)在處理語言的時候
: 都無法避免要執行分詞的動作
: 所謂分詞就是把句子中的主詞動詞介係詞 ...等
: 分離開來。
: 由於中文的特性，要進行分詞其實是很有挑戰的一件事；
: 反觀英文可以透過空白來分離單字，實作上真的比較輕鬆。
: 沒有要崇洋媚外，單純討論@@
: PS:
: 最近使用Python套件來做文字辨識
: 也發現中文不但辨識又慢又肥，而且辨識正確率也不是很好
: 請問中文在未來的世界中還具有甚麼優勢嗎?

繼續閱讀

[問卦] 當年趙雲七進七出有多猛？may88011 Re: [問卦] 當年清大王水溶屍案的男主角w510048 [問卦] 孟獲被七擒七縱時候再想什麼？vestal [問卦] 沒當過法官檢察官變成大法官？defendor007 Re: [問卦] 當年清大王水溶屍案的男主角postpost Re: [新聞] 再爆食安！高雄肉品批發商過期肉混裝出sw12 Re: [問卦] 三重預售屋買一坪破90萬被父母怒噴退訂?nobody0303 Re: [問卦] 大乘佛教到底是不是邪教阿jojolau Re: [問卦] 怎麼一堆改挺核的言論出現了chenpfu0394 Re: [問卦] 當年清大王水溶屍案的男主角victorly