Re: [閒聊] 文心一言AI繪圖（慎入） Reze PTT批踢踢實業坊

Re: [閒聊] 文心一言AI繪圖（慎入）

作者: Reze (Bomb) 2023-03-23 23:55:22

文心一言實力不如ChatGPT是理所當然的，微軟投資幾百億美元並且用微軟的雲端訓練整個網
路資料兩年了，到了去年底才終於開花結果
目前這種LLM模型，最重要的就是資料算力和算法，其中基礎的資料是非常重要的，Chat
GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型，而ChatGPT的基礎原理就是由上
一個字生成下一個字，週而復始，其中在訓練的過程還會經過人工挑選優質回答和一些和添
加一些限制來引導訓練方向，但總體而言跟其他Ai模型一樣訓練出來的模型基本上是黑盒子
，是無法直接改動的，所以基礎語料的重要性不言而喻
而中文跟英文在目前網路的資料量91%左右，而中文只有0.11%，甚至還沒有日文0.12%多，文
心一言基本上就是專攻中文的，所以在先天條件下其實就不如ChatGPT（GPT的中文回答很多
時候也是經由英文生成答案再轉成中文的
第二個就是算力差距也很大，之前微軟的訓練場所都是5萬張A100在24小時跑模型的，美國之
前已經要求NV禁售高階運算卡很久了，目前百度能用的卡就是一些消費級的和以前囤積的卡
，聽說他們之後要用他們的國產摩爾線程的顯卡，不過那個效能和NV差距非常大，在算力這
方面上幾年內也是追不上OpenAi團隊的
不夠就算如此，我也覺得百度這次算厲害了，為什麼？因為隔壁Google 開始公測的Bard實際
表現還不如文心一言，甚至可以說慘多了，全靠同行襯托啊。而且百度這次不像很多中國公
司一樣拿外國產品套個皮就說自研，而是真的在做產品，這點就挺厲害了，不過他們會下去
做主要也是想繼續霸佔中國瀏覽器市場的龍頭地位就是了

作者: dos01 (朵斯01) 2023-03-23 23:58:00

這沒辦法解釋為什麼愛國的定義出來是美國捏

作者: Justisaac (灰色的天空) 2023-03-23 23:58:00

算力不足的狀況下我覺得這模型出得太快了~

作者: Reze (Bomb) 2023-03-24 00:01:00

因為實際上那張圖的標籤加了美國的，只是被P掉了https://i.imgur.com/ST90nzy.jpg

作者: dos01 (朵斯01) 2023-03-24 00:02:00

所以我說那個國呢?

作者: Reze (Bomb) 2023-03-24 00:03:00

我覺得那不是重點，生成圖片和影片就是百度的噱頭，實際上看文字生成的部分比較有意義

作者: weltschmerz (威爾特斯克˙悶死) 2023-03-24 00:07:00

這篇也太lag早就被踢爆這個垃圾是把用戶打的字機翻然後放到國外的sd跑出來的你只要用一些中英歧異的字就能測試出來

作者: Justisaac (灰色的天空) 2023-03-24 00:09:00

機翻也可能是核心抄襲所以沒辦法直接用中文啊

作者: weltschmerz (威爾特斯克˙悶死) 2023-03-24 00:09:00

" target="_blank" rel="noreferrer noopener nofollow">

不多說了自己去查反正這又是國外開源我就原創

作者: dos01 (朵斯01) 2023-03-24 00:11:00

所以我說那個標籤呢?

作者: Reze (Bomb) 2023-03-24 00:11:00

文字對話和圖片生成是分開的啊，圖片生成是用開源的工具生成的這個第一天內測的時候不就知道了，但文心一言最重要的是跟ChatGPT一樣的語言對話模型啊，為何都在討論圖片生成的部分，我看不太懂

作者: weltschmerz (威爾特斯克˙悶死) 2023-03-24 00:12:00

你要不要看看標題在說什麼

作者: dos01 (朵斯01) 2023-03-24 00:12:00

那你上面說的那個標籤跟P掉是怎麼一回事要不要解釋一下

作者: Reze (Bomb) 2023-03-24 00:14:00

那你要不要看內文在寫什麼？我只是想討論一下目前的幾個大型LLM模型而已，Ai繪圖早就已經玩爛了，技術難度也遠低於對話模型就那張圖把標籤P掉了啊，你實際打愛國的貓沒有美國國旗，很難懂嗎？

作者: dos01 (朵斯01) 2023-03-24 00:16:00

呵

作者: weltschmerz (威爾特斯克˙悶死) 2023-03-24 00:16:00

連人家自家人都懷疑文心一言了你居然能信誓旦旦他只是訓練不夠你難道是內部員工?而且你拿bard比較更好笑你要不要去查一下bard的作用

作者: Reze (Bomb) 2023-03-24 00:21:00

你真的沒有基礎概念嗎？難道你覺得對話模型可以生成圖片嗎？百度只是把生成圖片跟影片這個部分當成噱頭加進去文心一言，但這個功能跟語言模型的部分是獨立的你了解嗎？這種語言模型重要的是訓練模型，訓練出來的模型都在OpenAi的雲端，想抄還抄不到，所以我才說百度是真的有訓練語言模型，理解嗎？至於Bard Google就定義為聊天語言模型了，在ChatGPT推出後急忙上線公測版，不是對標是要做什麼？好對不起我不該在C洽討論技術的，對不起對不起對不起

作者: dos01 (朵斯01) 2023-03-24 00:22:00

在瞎掰了! 大家來看阿! 這傢伙在瞎掰了!

作者: Reze (Bomb) 2023-03-24 00:23:00

你覺得不對你可以針對你覺得不對的點反駁，而不是說空話，雖然我理解你肯定都看不懂，也無從反駁。

作者: lbowlbow (沉睡的小貓) 2023-03-24 00:23:00

這樣也能吹，了不起

作者: guogu 2023-03-24 00:23:00

你慢了看討論圖出來不久後有人想試那時愛國變成禁字了現在應該是改完了

作者: GiantGG (ΠΛΑΝΗΤΕΣ) 2023-03-24 00:25:00

中國擋一堆關鍵字，好奇用中文資料訓練出來的AI能多強？

作者: lazarus1121 (...) 2023-03-24 00:26:00

都被踢爆還能吹，也是滿厲害的

作者: Reze (Bomb) 2023-03-24 00:27:00

就跟英文有三個數量級差距，而且資料的含金量也遠低於英語，上限就在那邊了，追不上OpenAi的生成圖片的和語言模型是兩個東西，只是百度把它都丟到文心一言裡面，這很難理解嗎？被踢爆的從來都不是語言模型的部分

作者: lazarus1121 (...) 2023-03-24 00:29:00

現在他們拼命hotfix加詞庫，有些東西已經玩不出來了

作者: Reze (Bomb) 2023-03-24 00:30:00

我的文章都是想討論LLM模型訓練出來的語言模型，這是未來十年最重要的技術之一，而不是這個繪圖Ai，繪圖Ai沒人在乎，OpenAi也不在乎

作者: longQQQ 2023-03-24 00:36:00

推文怎麼有人像三歲小孩一樣發顛==

作者: Reze (Bomb) 2023-03-24 00:41:00

我看了很頭痛，Ai這個東西訓練過後是黑箱子，這代表什麼？這代表這並不像那些固定的程式碼，比如操作系統或者軟體包可以直接複製一份偷過來的，且所謂的LLM模型就是超大規模模型，也不是隨便什麼硬碟就能裝下的GPT3.0時代光是模型就有3000多TB了，且都存在OpenAi的伺服器上，跟繪圖Ai這種用本地NPU就能跑的東西是完全不一樣的，他們只是都叫Ai而已，別混為一談啊

作者: diyaworld (æ–‡åŒ–åœŸåŒª) 2023-03-24 00:52:00

https://i.imgur.com/1VE7r7y.jpg https://i.imgur.com/CiwWJD7.jpg https://i.imgur.com/FslrsjQ.jpg https://i.imgur.com/9H25gvp.jpg

作者: raincole (冷魚) 2023-03-24 01:04:00

我覺得很神奇整串推文好像只有原PO一個人知道自己在講什麼失智到有點誇張... 生圖跟聊天是兩個 AI一直貼生圖的那個用機翻被抓包跟原PO講的有一丁點關係嗎

作者: kevin870325 (darkage3461) 2023-03-24 01:05:00

有些人跳針到有點好笑

作者: Reze (Bomb) 2023-03-24 01:07:00

所以我覺得百度把圖片生成的Ai加進去很愚蠢。實際上原本文心一言的重點是和ChatGPT一樣訓練方式的對話模型，結果被這個圖片生成器搶走了目光，一般人也分不清楚兩者的差別

作者: raincole (冷魚) 2023-03-24 01:09:00

應該也不是分不清楚啦而是 _____ 嗯

作者: guogu 2023-03-24 01:13:00

重點是語言模型那原PO回什麼P圖的就多啦

作者: Reze (Bomb) 2023-03-24 01:19:00

我本來不想討論繪圖方面的，只是剛好有看到那個貓的討論，那個貓熱度很高的，只是下面留言很多人自己測試並非是美國外型的貓實際上圖片生成的部分百度用開源的這個是明顯的事實，但用邏輯思考就知道一般的繪圖Ai在畫這個主題時也不會特別去畫美國國旗，在生成圖片的風格選擇那邊可以選美式風格，就單純選了那個選項但把標籤移到下面

作者: ohmylove347 (ç±³ç‰¹å·´çˆ¾) 2023-03-24 01:43:00

查證推，為反而反真的太反智了

作者: winniekuma (Kuma) 2023-03-24 01:54:00

你不該浪費時間試圖在這個版理性討論

作者: SuM0m0 (Part Time Player) 2023-03-24 02:14:00

就不要結果是google自己的東西 vs openai開源的gpt 2走了捷徑然後就沒有了

作者: Reze (Bomb) 2023-03-24 02:50:00

實際上大家現在用的都是Google 2017年提出的transformer模型，原理並不難，難的是需要海量語料和算力來建立LLM模型，我不認為百度會爛到連基本原理都搞不懂，因為實際上這些東西一般大學的資工系都能輕鬆理解原理但如前面所說的，其實難的是工程問題，chatGPT2.0以前，語言模型的邏輯推理能力還非常弱，直到3.0版本資料量提高了1000倍以後，ChatGPT才表現的更像人類，這也是為什麼以前搜索引擎時代，Google可以以小公司白手起家，但是現在LLM模型卻沒有新興小公司能做的原因，原理不難，難的是錢啊，微軟兩年前投資100億美元，讓open Ai用微軟雲端的5萬張A100訓練才有的成果，一般公司或者大學研究團隊根本搞不出來這麼大規模的算力而且我發現前面很多人的噓文好像以為我是想吹百度，其實我真正想吹的是有了多模塊能力的GPT4.0啊，數學能力飛速成長和擁有了圖片識別能力，實際上我認為百度根本沒有追上OpenAi的機會倒是Transformer模型的提出者Google推出的Bard令人失望，也體現到了最近的股價，就不多談了

作者: RLH (我們很近也很遠) 2023-03-24 03:33:00

你好有耐心

作者: romber (tako) 2023-03-24 03:40:00

推原po，你討論的是技術，很激動噓文那幾個討論的是政治，永遠取不到共識

作者: chiayu81 (一藍燄一) 2023-03-24 04:14:00

就資料庫來說中文這塊還真的要靠對岸發展他們的資料量大封閉性又高就怕又是另一個內宣噱頭而已

作者: wtsf (牡羊犬) 2023-03-24 04:42:00

我是覺得不用跟前面幾樓解釋這麼久啦...他們就不在乎真相只在乎能不能嘲笑中國而已

作者: uohZemllac (甘草精華雄沒醉) 2023-03-24 09:23:00

認真文給推

作者: UnifiedField (小光) 2023-03-24 09:23:00

但百度的語言模型和近年看到的各種 transformer 差不多。然後繪圖也是他自稱的多模態，既然他刻意混淆也別說別人誤解了。

作者: Reze (Bomb) 2023-03-24 10:15:00

ChatGPT和Brad也都是transformer模型啊，只是在GPT3.0之前沒有預料到LLM會讓基於transformer模型建立的語言模型產生類似邏輯鏈的概念，至於百度說他活該我也沒意見的，自己要搞噱頭的，不過要強調的是百度的文心一言跟多模塊差很多的，文心一言並不能以文字輸入以外的方式來和模型對話

作者: Dreampen (workerlevel) 2023-03-24 10:36:00

推

繼續閱讀

[閒聊] 滿血的吾郎打得贏海堂嗎max366629 [Vtub] 森森鈴蘭- 【歌回LA】刪檔歌回BOSTONstyle [Vtub] 稻乙緹是現在一線台V嗎Wardyal [閒聊] 肥嫩的側乳和豐滿蜜大腿是最美味的宵夜FAccounting [閒聊] 寶可夢動畫正版來源?Gentlemon [Vtub] 天使uto APEX 20230323outsmart33 [原神] 黑色史萊姆melzard Re: [Vtub] 彩虹社郡道美玲發表不當言論遭炎上YoruHentai [閒聊] 皮卡丘到底說了什麼啊b93173 Re: [閒聊] 文心一言AI繪圖（慎入）Atima

細身なのにケツはエロデカいアパレル店員さんよく飲むし楽しいし最高！それなのに… 巨根で理性崩壊その後、鬼責めくらって白目マゾ堕ち

過激な競泳水着を着させられて… 羞恥と快楽のせめぎ合いの末、他人棒に中出しまで許した僕の妻… 北野未奈

【VR】兄の居ぬ間に…相互チクイキ密会日夜チクオナで絶頂する巨乳兄嫁に乳首を開発される雑魚チクビの僕波多野結衣

妻と結婚して10年。やっと実った巨乳連れ子を妻が帰省した3日間に10年分調教して理解らせた。楪カレン

「先生もっと鍛えてください…」巨乳アスリート女子の空気椅子おっぱいプルプル下半身強化トレーニング 1cmで即ズボッ！突き上げ騎乗位11発中出し！明日見未来