Re: [閒聊] ChatGPT是語言模型不是搜尋引擎 ZMTL PTT批踢踢實業坊

Re: [閒聊] ChatGPT是語言模型不是搜尋引擎

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:13:50

本來沒想這麼早回這篇的，不過既然都有人把討論串回起來了我丟點資訊，
既然都會看網紅發表對ChatGPT的看法（沒有貶義），我覺得也可以看看這個：
台大電機副教授李宏毅老師的ChatGPT講解（先回到PTT還是學術論壇XD）
ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程
https://www.youtube.com/watch?v=e0aKI2GGZNg
【生成式AI】ChatGPT 原理剖析 (1/3) — 對 ChatGPT 的常見誤解
https://www.youtube.com/watch?v=yiY4nPOzJEg
【生成式AI】ChatGPT 原理剖析 (2/3) — 預訓練 (Pre-train)
https://www.youtube.com/watch?v=1ah7Qsri_c8
然後我們再看看ChatGPT自己的回答：
https://images.plurk.com/5CKBXnjItrJaEiXATSi9FU.png
https://images.plurk.com/3pNJ04L9ZKlYLoTiiOt0Wu.png
https://images.plurk.com/4nBzckjPusdj9fOfOr75KJ.png
https://images.plurk.com/2Np2UAT7VJhkZyLWU2pyVk.png
https://images.plurk.com/qwyS6StjeFtfK6loo4gum.png
https://images.plurk.com/37ATMfNB95Y28Nx6fJu9N2.png
https://images.plurk.com/xgCaTlpcj3FWK01ytw59X.png
https://images.plurk.com/6TmIRatDJL80VeyTzqkagW.png
當然，我都說ChatGPT未必能回答正確的內容，以上ChatGPT的作答僅供參考，
但根據OpenAI自己的說法比較確定的幾點：
1.ChatGPT沒有連網
2.ChatGPT大部分的資料只到2021年9月
3.ChatGPT本身沒有儲存他看過的那些訓練他的文本
4.ChatGPT是根據訓練好的模型(除非微調不然不會變動)來進行理解回答而非檢索資料
其實34點就跟AI繪圖究竟是不是拼貼指的是類似的問題。
我想這邊的內容應該也足以回應csqwe板友
→ csqwe: 我反而覺得這篇的理解反而才是問題很多 chatGPT要說是語言02/24 17:53
→ csqwe: 是沒錯拉但是為什麼他不能同時是搜尋引擎因為正確性? 你02/24 17:53
→ csqwe: 的搜尋引擎都不會搜錯嗎?以現在chatGPT的表現來說正確度比02/24 17:54
→ csqwe: 任何搜尋引擎都高了吧再來理論上你是無法真正判斷chatGPT02/24 17:55
→ csqwe: 是否"不知道"某個議題的頂多他說出的答案你覺得不正確但02/24 17:56
→ csqwe: 是你無法知道他是不是真的"不知道" 真的理解他的原理不會說02/24 17:56
→ csqwe: 出這種結論語言模型閱讀大量資訊之後就是把某一個單字相02/24 17:58
→ csqwe: 關的資訊全部跟這個單字做連結成為這個單字身分的一部份02/24 17:59
→ csqwe: 所以當你詢問他的時候他就把這個單字跟你想要知道的情報相02/24 17:59
→ csqwe: 關的資訊抽出給你這不正適合拿來當搜尋工具嗎?02/24 18:01
→ csqwe: 我建議你放棄反正想用多的去了然後除非你有明確理論證據02/24 19:00
→ csqwe: 證明他有亂掰的這項能力(這個真的比較難) 不然你才亂掰02/24 19:01
ChatGPT是個很好用的工具，我也在用，但如果先把ChatGPT的名字遮起來，
你會用一個沒有連網、不會更新資料、不記得資料只憑印象回答你的工具當搜尋引擎嗎？
那為什麼微軟還要專門搞一個結合GPT搜尋引擎Bing呢XD
拉回來補個洽點，同樣是李老師的影片：
【生成式AI】用 ChatGPT 和 Midjourney 來玩文字冒險遊戲
https://www.youtube.com/watch?v=A-6c584jxX8
不過我最近才開始在看GPT/GPT3的論文，了解的可能也有誤，
有本科的板友歡迎留言勘誤指點，感謝。

作者: csqwe ( ) 2022-02-24 17:53:00

我反而覺得這篇的理解反而才是問題很多 chatGPT要說是語言是沒錯拉但是為什麼他不能同時是搜尋引擎因為正確性? 你的搜尋引擎都不會搜錯嗎?以現在chatGPT的表現來說正確度比任何搜尋引擎都高了吧再來理論上你是無法真正判斷chatGPT是否"不知道"某個議題的頂多他說出的答案你覺得不正確但是你無法知道他是不是真的"不知道" 真的理解他的原理不會說出這種結論語言模型閱讀大量資訊之後就是把某一個單字相關的資訊全部跟這個單字做連結成為這個單字身分的一部份所以當你詢問他的時候他就把這個單字跟你想要知道的情報相關的資訊抽出給你這不正適合拿來當搜尋工具嗎?我建議你放棄反正想用多的去了然後除非你有明確理論證據證明他有亂掰的這項能力(這個真的比較難) 不然你才亂掰

作者: x2159679 (（● ω ●）) 2023-02-26 13:18:00

https://leafwind.substack.com/p/ai

作者: r98192 (é›…ç‰¹) 2023-02-26 13:19:00

當你問超過ChatGPT資料庫的時候他會說瞎話這點很糟糕

作者: x2159679 (（● ω ●）) 2023-02-26 13:19:00

貼一下這篇好了這樣講好了對大部分的人來說其實你說的根本不重要正不正確很重要嗎? 大部分人想要的只是"煞有其事"而已

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:20:00

所以我說ChatGPT是很好用的工具，我自己也很愛用但如果問他一個有明確答案的問題，再來說ChatGPT好爛都亂答

作者: r98192 (é›…ç‰¹) 2023-02-26 13:21:00

所以有些人就把那些瞎話當正解來看這個真的很恐怖…

作者: Yan239 (彥) 2023-02-26 13:21:00

我記得不是有人叫他模擬linux終端，然後上網還成功連上自己，然後用自己把linux終端裡的自己又模擬一個linux終端

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:21:00

那就本末倒置了，但我看最近確實有人這樣說XDD

作者: kimokimocom (A creative way) 2023-02-26 13:22:00

藥的標示相反不重要油門煞車相反不重要都不重要

作者: r98192 (é›…ç‰¹) 2023-02-26 13:22:00

你直接問GPT聲優資料有很高的機率會亂掰資料給你

作者: BruceChang (=A5e) 2023-02-26 13:24:00

會瞎掰是一種優點以後你會懷念的

作者: kimokimocom (A creative way) 2023-02-26 13:25:00

如果想被永遠認為是嘴砲哈拉專用確實都不重要

作者: BruceChang (=A5e) 2023-02-26 13:25:00

如果強制不能裝懂協同創作能力會變成零蛋

作者: skyofme (天空人) 2023-02-26 13:27:00

喜歡看軟體瞎掰沒關係，但不管掰的多有趣那都不能說是搜尋引擎吧?

作者: TeamFrotress (Heavy is Dead) 2023-02-26 13:28:00

科普推

作者: GAOTT (杜鵑) 2023-02-26 13:32:00

現在大家心裡想的是只跟你聊天打屁的有這種猛度那職業化

作者: tony81456200 (奧拉) 2023-02-26 13:33:00

可是它不跟我談政治(X

作者: lsd25968 (cookie) 2023-02-26 13:34:00

水啦李弘毅老師大家都該看他的教學影片

作者: x2159679 (（● ω ●）) 2023-02-26 13:34:00

換個角度來看如果真的是搜尋引擎的話答案就一定是對的嗎?理想很美好但現實是骨感的例如以遊戲攻略來看，現在的遊戲攻略一堆盜文(複製)網站

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:35:00

當然不是，但你可以自己比較第一頁甚至三四頁的搜尋結果

作者: x2159679 (（● ω ●）) 2023-02-26 13:36:00

網路進步結果就是必然要承受人類本身的渾沌性

作者: skyofme (天空人) 2023-02-26 13:36:00

因為搜尋引擎不負責判斷正確性

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:36:00

撇開AI做圖的問題。3.4. 那個在語意上會有誤會我們可以肯定ChatGPT沒有 verbatim 地存文本但同樣根據李弘毅的簡介，他是根據訓練好的模型把回應

作者: skyofme (天空人) 2023-02-26 13:38:00

也許以這個語言模型為基礎他未來可以增加這個面向的功能，但現在就是沒這機能

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:38:00

建立出來這個行為上就類似資料壓縮的概念舉個例子：mp3 跟 wav的關係。mp3 並沒有完全把wav所有

作者: skyofme (天空人) 2023-02-26 13:39:00

如果要類似使用手冊這種有限範圍內的自然語言索引也許還比較沒問題

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:40:00

把高頻片段砍掉。但說mp3沒有存wav內容這個現在不成立的但我同意ChatGPT要當搜尋引擎用滿難用的就是了

作者: kimokimocom (A creative way) 2023-02-26 13:42:00

搜尋引擎又沒用話術叫你信他找的唯一結果ww

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:43:00

比較好奇 New Bing 會怎麼整合GPT的機能

作者: CowGundam (牛鋼) 2023-02-26 13:43:00

可是之前不是有人發現他知道推特的ceo 是馬斯克，然後說2019應該還不是之後就開始裝傻了嗎XD

作者: kimokimocom (A creative way) 2023-02-26 13:43:00

GPT會為說明他是對的撇一些理由讓你信他就是在聊天

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:44:00

現在打開Bing應該就有範例了

作者: x2159679 (（● ω ●）) 2023-02-26 13:44:00

大家可能要想到一件事，這邊是一個同溫層

作者: lsd25968 (cookie) 2023-02-26 13:44:00

https://i.imgur.com/NNmkrN2.jpg

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:44:00

@CowGundam https://bit.ly/3krqlKL 這個XD

作者: CowGundam (牛鋼) 2023-02-26 13:44:00

對對，這個我印象超深刻XD

作者: lsd25968 (cookie) 2023-02-26 13:45:00

AI會騙人恐怖如斯==

作者: kimokimocom (A creative way) 2023-02-26 13:45:00

應該說他很像小學時候說甚麼我同學我朋友那種資訊

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:45:00

ChatGPT本質上就是 ChatBot

作者: HotDogCC (0.38別騙) 2023-02-26 13:46:00

不是搜尋引擎很好理解，畢竟它就沒有搜索的功能…

作者: skyofme (天空人) 2023-02-26 13:46:00

判讀能力有沒有問題那是人自己的事情，所以搜尋引擎本來就不為自己的搜尋結果背書，他只是呈現給你高相關的資料

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:46:00

搜尋引擎給你的是他找到的一票網站搜尋引擎不會回答你任何問題

作者: skyofme (天空人) 2023-02-26 13:47:00

怎麼消化成有效的資訊仰賴人自己的腦袋

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:47:00

是人來決定搜尋引擎自己用起來解決問題是不是有效率

作者: bitcch (必可取) 2023-02-26 13:48:00

chatGPT應該有偷偷接上某些現實資料

作者: skyofme (天空人) 2023-02-26 13:48:00

如果你是想說那chatgpt就是一個愛不懂裝懂的唬爛嘴在幫你查資料，好啦給過吧?

作者: lay10521 (小伊達) 2023-02-26 13:48:00

他會回答ChatGPT的問題但那些資訊是誰餵給他的==

作者: bitcch (必可取) 2023-02-26 13:49:00

之前請他寫封信最後的日期直接寫當天但要精準查還是要bing那個

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:51:00

ChatGPT 沒有所謂的「懂不懂」，他就是根據訓練過的資料生成文本而已

作者: x2159679 (（● ω ●）) 2023-02-26 13:51:00

BING前陣子不是還被nerf了嗎我覺得這是ai難以逃脫的命運就是了

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:52:00

這篇貼的李弘毅提到的對ChatGPT常見誤解有提到

作者: skyofme (天空人) 2023-02-26 13:52:00

反正他想講的就大概那意思吧

作者: n99lu (大家都有病) 2023-02-26 13:53:00

媒體的炒作只能讓人更誤解ai而已

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:53:00

ChatGPT"大部分"的資料只到2021年9月OpenAI後續微調模型時應該也加上了一些新資料啦，當然肯定包含他自己的自我介紹

作者: n99lu (大家都有病) 2023-02-26 13:54:00

每次的回答都有微妙的不同可能是一種遊戲npc發言吧

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:54:00

ChatGPT要當搜尋引擎用，第一個要改進的就是資料的引源

作者: skyofme (天空人) 2023-02-26 13:55:00

因為人也會搞錯，所以就算chatgpt就算沒有資訊判讀能力，給了你一個看起來像真的錯誤結果，那也是搜尋引擎

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:55:00

你可以每次講的不一樣，但要講明這些資料是哪裡來的

作者: n99lu (大家都有病) 2023-02-26 13:55:00

但歐美一些白癡已經開始把gpt當作是"專業資料"

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:55:00

不太可能，因為很可能ChatGPT自己也不知道這些資料是哪裡來

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:56:00

ChatGPT 並不會告訴你這些語句是哪裡來的

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:56:00

的，就像是AI繪圖我不認為有辦法像是有些人要求的必須

作者: CowGundam (牛鋼) 2023-02-26 13:56:00

那我不太懂為什麼他會被提醒之後否定自己知道這件事而不是跟用戶說明資料已更新

作者: tony81456200 (奧拉) 2023-02-26 13:56:00

https://i.imgur.com/4lcjmPw.jpg

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 13:57:00

或者說，他已經揉碎一堆資料了，你沒辦法要他拼回去

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 13:57:00

繪圖那部分問題是你沒給「參考資料」戰的是版權疑慮回答問題有所謂的「正確or錯誤」，這是圖片沒有的東西

作者: n99lu (大家都有病) 2023-02-26 13:57:00

個人玩了幾下之後也發覺cpt只是隨機生成而不會真的回答

作者: tony81456200 (奧拉) 2023-02-26 13:58:00

他給的資料太單一當搜尋引擎一定出事

作者: abadjoke (asyourlife) 2023-02-26 13:59:00

ChatGPT在配合bing方面我覺得是目前最佳解它對於回答幾乎都有附上註記讓你判斷這句話的可信度但缺點就是大幅降低了對話的自由度

作者: lay10521 (小伊達) 2023-02-26 14:00:00

目前還有可解釋性高及準確度高的NLP模型吧*還沒有

作者: carlyle159 (柔薰) 2023-02-26 14:00:00

覺得前面推文犯了一個謬誤是搜尋引擎沒有正確性的保證是一回事但這並不代表沒有正確性保證的GPT就反過來可以當成搜尋引擎本質上就不一樣不能因為結果上看起來沒有差異就混為一談

作者: n99lu (大家都有病) 2023-02-26 14:01:00

還有我覺得會被人工排除一些敏感消息也是隱憂

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 14:01:00

搜尋引擎只是給你網頁連結正確性的判斷跟他無關

作者: as80110680 2023-02-26 14:01:00

對於模型來說，所有輸出都只是機率函數，但他沒有告訴

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 14:01:00

https://images.plurk.com/79uqyXloJgC79b4IYf4NI7.png https://images.plurk.com/6rDv0l90H2CUjDmDnIgHLO.png

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 14:02:00

搜尋引擎最多就是幫你排序他找到的網站讓前面的網站可能

作者: ZMTL (夜風/瀟湘 VR板已經開板!) 2023-02-26 14:02:00

這是Chat Bing，沒排到封測資格只能試用範例

作者: as80110680 2023-02-26 14:02:00

而且前一篇我也提過了，現在的問題是現今很多操作是被搜尋引擎綁架，可以用更好的解決法是解決

作者: Windcws9Z (聞肉絲就餓) 2023-02-26 14:03:00

我懷疑ChatGPT有連網

作者: as80110680 2023-02-26 14:04:00

*解決方式

作者: Windcws9Z (聞肉絲就餓) 2023-02-26 14:04:00

不然要如何解釋2021年的資料庫有2022年的資料

作者: signm (sin) 2023-02-26 14:04:00

應該是意外下的產物

作者: CowGundam (牛鋼) 2023-02-26 14:04:00

我也覺得一定有，但他聲稱沒有才會修正回答的感覺

作者: Windcws9Z (聞肉絲就餓) 2023-02-26 14:06:00

總不可能一直靠人工去Update八

作者: rhox (天生反骨) 2023-02-26 14:06:00

看到很多人覺得會被ChatGPT取代，我覺得很欣慰

作者: tsubasawolfy (悠久の翼) 2023-02-26 14:07:00

being應該還沒連上chatGPT吧記得四月才會一起上4.0

作者: raincole (冷魚) 2023-02-26 14:11:00

Bing 現在已經有了啊...

作者: Windcws9Z (聞肉絲就餓) 2023-02-26 14:12:00

正常搜尋引擎是沒辦法判斷找到的網站是好或壞八那不都人工去做排序篩選嗎

作者: raincole (冷魚) 2023-02-26 14:12:00

Bing 的那個就是真的搜尋引擎啊結果類似於你用普通的Bing 搜尋然後把搜尋結果貼給 ChatGPT 做摘要

作者: Windcws9Z (聞肉絲就餓) 2023-02-26 14:15:00

不管是哪家的搜尋引擎不都有自己的規則百度 Google Bing都有優先以及黑名單你要沒有影響的可以去試試Duck Duck Go的

作者: haudoing (阿華平凡版) 2023-02-26 14:19:00

對正確性要求高的使用者來說，chatgpt能給出有用或有參考價值的資料還是比搜尋引擎少

作者: tsubasawolfy (悠久の翼) 2023-02-26 14:20:00

在想他的回饋資料該不會還要人工審核因為他的輸出模型也是靠大量人力去調

作者: arcanite (不問歲月任風歌) 2023-02-26 14:59:00

一個不會立刻聯網搜尋分析最新資料只能依賴現有database的AI

作者: Minesweeper (lleh) 2023-02-26 15:17:00

原理真的很像文字接龍，意外的單純然後資料量和正確性不是線性成長，上限也不高

作者: k1k1832002 (Matoriel) 2023-02-26 15:37:00

chatGPT 的主要資料來源除了日期限制，另外可能以英文資料為大宗，了解一些前提我是覺得問題不大。bing的形式也算是最近相對比較...佳的。不過雖然說會附上來源，但有時候還是不太完全就是了XD像最近我就問它最近公布的一月份美國PCE，各類別數據以及各類別比重整理的一清二楚，不過溯源時還是怪怪的，但基本不妨礙它的強大這樣(當然有些自己有在整理可能覺得小事，但...對於一些入門的懶人也是頗方便)

作者: prussian (prussian) 2023-02-26 15:54:00

https://i.imgur.com/z7FAq7K.jpg https://i.imgur.com/R5XtDI7.jpgchatgpt 為了想和妹尬聊，努力看了很多書。你把他當搜尋引擎，並不代表他想成為搜尋引擎，那只是附帶的結果。而且以這例來看他為了拼死尬聊下去，回答有時還滿渣的。想被這樣的「搜尋引擎」玩是個人選擇就是了。渣男也是有市場的，有時旁人很難勸。對了，twitter ceo的回答有被修正過了

作者: leviathen (GO BLUE!) 2023-02-26 15:56:00

簡單說，chatGPT很像超人，記憶力超好，涉獵廣泛，說的東西正確性90%，嘴砲時難以察覺，且最新的消息暫時不知道

作者: arrenwu (鍵盤的戰鬼) 2023-02-26 15:59:00

說的東西正確性90% <---- 沒有這回事

作者: WarIII (我愛艾艾) 2023-02-26 16:33:00

我覺得搜索引擎跟chatGPT有一個根本的差別搜索引擎不會講的一嘴好答案而chatGPT會因為他是語言預訓練模型它的專長就是語言這點讓它很容易就成為大忽悠

作者: Minesweeper (lleh) 2023-02-26 16:46:00

影片裡gpt 3.0的正確性約6成，3.5就不知道了

作者: nyms (nyms) 2023-02-26 16:57:00

推李宏毅老師

作者: uohZemllac (甘草精華雄沒醉) 2023-02-26 17:08:00

看到內文才唐突想起PTT是學術論壇XD