Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不 DrTech PTT批踢踢實業坊

Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不

作者: DrTech (竹科管理處網軍研發人員) 2024-11-03 16:09:00

※ 引述《angus850503 (安格斯)》之銘言：
: 借版問
: 小弟目前為前端工程師受益於 Copilot 跟 ChatGPT
: 開發上真的輕鬆非常非常多已經把按 tab 當作開發的一環了XD
: 不過之前就一直對生成式 AI 有個疑問
: 就是"幻覺"到底有沒有根本上的解決方法?
: 我的理解目前的 AI 還是靠大數據去堆疊資料量用以訓練模型
: 現階段也是不斷堆硬體去撐這塊
: (如果理解有誤請小力鞭QQ)
: 但幻覺的問題不論是餵更多資料或是透過 RAG 感覺都是治標不治本
: 還是沒辦法完全預防與解決
: 對我來說這樣可以稱得上是 AI 嗎? 還是充其量只是進階版的機器學習?
: 請各位軟工大神解惑了QQ
: 附上這個議題 ChatGPT 自己的回答:
: https://i.meee.com.tw/Gk7IjRH.png
: https://i.meee.com.tw/EVQCczh.png
解決幻覺，不一定要從LLM解，
而是靠系統架構解。
例如，做一個問答系統，很多人減少幻覺是這樣做的：
0. 預先整理好QA問答資料集
(人工整理，或機器輔助整理)
1. 使用者輸入Query。
2. 搜尋top-k個相似的問題。
3. 將 k個最相似的問題與答案輸入至LLM，
要求LLM生成最適合的答案。
4. 將LLM生成的答案輸出。(可能有幻覺，可能沒幻覺，難以控制)
幾乎所有的網路上範例程式都告訴你這樣做。
這套系統架構稱為：LLM生成答案。
實際上，你只要改個系統架構，就可以得到完全沒幻覺，又同樣準確率又同樣等級的問答系統：
流程如下：
0. 整理QA資料集
1. 使用者輸入Query
2. 搜尋top-k相似的問題
3. 要求LLM在K個問題與答案，弄成K個選項
要求LLM選擇一個最適合的問題與答案。
LLM只輸出1, 2, 3, 4。
(如有必要，可用outlines 或 guidance，控制 next token 只做這四個選擇)
4. 根據LLM選擇的選項，
系統只輸出選項1,2,3,4 對應的答案A。
由於A不是LLM生成的，所以永遠不會有幻覺問題。
這套系統架構稱為：LLM選擇答案。(而不是生成答案)
也就是說，同樣一個系統，LLM原本是靠生成產生最後結果，轉換成LLM只能從多個沒幻覺的事實間，選擇一個事實。永遠不會有幻覺。
以上只是舉例。
任何一個AI功能，只要掌握一個訣竅，
LLM或AI的輸出結果，不要用在最後階段的輸出
而是轉化問題，系統設計成LLM用在中間某任務，在事實間做分類選擇，輸出的就永遠是事實。
根據實驗與經驗，答對答錯的機會也不會
因為改變了系統設計架構而有影響。
做AI應用，真的不是無腦套模型，套別人流程。
LLM也不是只能用在生成文字，傳統的，分類，選擇，NER，排序最佳化，…都可以靠LLM 做。
把LLM當成系統中間工具，而不是最終輸出，可以大幅提升AI能力，又完全不會產生幻覺。

作者: neo5277 (I am an agent of chaos) 2024-11-03 16:33:00

樓上這個有專有名詞叫做rerank 我開發系統時有設計

作者: DrTech (竹科管理處網軍研發人員) 2024-11-03 16:44:00

重點是系統架構設計。rerank完，該怎麼輸出？如果用rerank完，LLM生成輸出結果，還是永遠有幻覺。如果rerank完，用top-k個答案事實輸出，就不會有幻覺。而且當答案只有一個的情況，何必用到複雜的rerank。直接轉換成搜尋結果 k選一的classification任務，還比較適合。

作者: neo5277 (I am an agent of chaos) 2024-11-03 18:40:00

嗯合理同意，下週來玩看看

作者: prag222 (prag) 2024-11-03 20:57:00

你可以一個問題問三次,覺得答案不對的就打臉chatGpt多否定幾次可能就會給你正確答案了,(笑

作者: labbat (labbat) 2024-11-03 21:04:00

微軟大老建議過了唄

作者: j0958322080 (Tidus) 2024-11-03 23:26:00

重點是這個還要靠人整理啊

作者: DrTech (竹科管理處網軍研發人員) 2024-11-03 23:38:00

我只是說最簡單的例子，也可做到不用靠人整理，或不要整理QA。方法就是跟常見的RAG一樣，不整理QA，直接把文章切成chunk 段落。一樣搜最接近top-K段落，給LLM生成答案，但是生成答案後，"不要"信任LLM的生成文字直接輸出，使用傳統的NLP去糾錯(spell correct ion)，糾錯的候選只能是chunk事實中的連續句子。最後輸出糾正到事實的句子。這樣可做到不整理QA但整個系統只會輸出最正確的事實句子。方法變形很多啦，但原則就是：LLM只是選擇或決策的工具，非最後的答案生成輸出。這樣就會有同樣聰明，又永遠是事實輸出的AI。

作者: viper9709 (阿達) 2024-11-04 00:44:00

原來是從問答題變成選擇題

作者: agario (Agar.io) 2024-11-04 06:54:00

假設你說的LLM只輸出1, 2, 3, 4是指只生出一個數字token這樣效果應該不是很好吧，畢竟沒時間一步一步思考

作者: DrTech (竹科管理處網軍研發人員) 2024-11-04 07:15:00

我只是舉簡單的例子，你先做要CoT然後最後輸出選項，也可以啊。其實許多Agent選tool的概念就是這樣，多種tool用選項讓LLM 選，LLM只限定選1,2,3,4這樣選項，也可控制next token只選數字。選tool行為就不會有幻覺，同樣的道理。viper9709總結得很好。不要有幻覺，就是：問答題轉成，事實的選擇。

作者: fallcolor (秋天走了) 2024-11-04 08:11:00

生成式ai被拿來當判別式ai用有種泡沫感

作者: DrTech (竹科管理處網軍研發人員) 2024-11-04 08:16:00

同樣的技術，也可以想成AI更通用了，用得更全面了，即可以用於生成，也可以用於判斷與分類。產品能賺得錢更多了。LLM產品，何必困於於生成或判別二選一。causal language model 從來就沒限制next token該怎麼用，沒限制下游任務只能用來判別或生成二選一。

作者: Firstshadow (IamCatづミ'_'ミづ) 2024-11-04 21:00:00

沒想到從中國大企業回來的D大連這方面都懂...強！

作者: Lhmstu (lhmstu) 2024-11-04 23:20:00

這種解法我自己是不看好，本末倒置

作者: DrTech (竹科管理處網軍研發人員) 2024-11-05 07:34:00

你可以去多看論文，OpenAI發表的GPT系列論文，模型評測一直都不只是用於生成答案任務，甚至評測LLM 排名的知名benchmark dataset, MMLU系列, 就是選擇題。這種做法叫本末倒置，質疑了所有做LLM benchmark 研究的所有團隊阿。你看到許多LLM leaderboard跑出來的分數，許多題目都是測LLM做多選一的選擇題喔。怎麼大家都這樣利用與評測LLM的能力，就你認為是本末倒置呢？再來，什麼叫作"本"，以使用者為中心，解決使用者困擾才是本。一個公司系統需要不會有亂答題的需求。人家才不管你技術使用是否用得本末倒置，能解決亂生答案的痛點才是本。

作者: Lipraxde (Lipraxde) 2024-11-05 09:26:00

這樣設計要怎麼用 LLM 做行程規劃 or 文字修飾、潤稿？

作者: Lhmstu (lhmstu) 2024-11-05 09:44:00

我是覺得你不用什麼都要爭到自己高人一等，我自己現在就是做這領域的，你說的這些我當然知道。不過你說是就是吧，目前確實是這樣，但跟我認為本末倒置沒有出入

作者: DrTech (竹科管理處網軍研發人員) 2024-11-05 10:21:00

純交流技術而言，不需要用到本末導致，高人一等都詞語吧，不同的技術應用哪有高低之分呢。不用太自卑啦，我只是跟你交流技術，技術本身並沒有高人一等之說。能解決使用者問題，何必去分高低呢。你自己就是做這領域了，你解決hallucination了嗎？可以分享交流嗎？至少我在我做的產品都解決了我也很願意跟大家分享。

作者: Lhmstu (lhmstu) 2024-11-05 11:45:00

確實，我有些用詞過頭了跟D大說聲抱歉，只是著眼點不同而已，以軟體應用層面來說目前解法的確如你所說。只是我個人心理覺得這只是暫時解而已但是還是很感謝你的分享

作者: Firstshadow (IamCatづミ'_'ミづ) 2024-11-05 12:35:00

對！D大只是實際分享他的技術和應用！

作者: hobnob (hobnob) 2024-11-05 13:28:00

推技術串，受益良多

作者: transforman 2024-11-06 00:14:00

推個

作者: internetms52 (Oaide) 2024-11-06 11:30:00

呃…選擇最適合的答案不也是機率嗎？，怎麼就跟幻覺沒關係了，不太懂...

作者: Sportsman (運動家) 2024-11-07 14:31:00

差別在於使用者看到的都會是人工準備的事實，而不是LLM

作者: Lipraxde (Lipraxde) 2024-11-08 12:26:00

因為他是挑人工預先準備好的答案，LLM 只是做選擇題

作者: sealman234 (Sealman) 2024-11-08 17:19:00

junior?

作者: dream1124 (全新開始) 2024-11-09 13:09:00

感覺是一套讓AI更可靠的方法，但目前的生成AI沒真正認知與理解能力，因此也沒到真的解決問題

作者: iamOsaka (歐沙卡) 2024-11-10 13:30:00

推分享

作者: ohmylove347 (ç±³ç‰¹å·´çˆ¾) 2024-11-10 20:01:00

聽起來像是RAG

作者: lukelove (午睡) 2024-11-24 10:57:00

作為工程師就是想辦法降錯誤率, 能降就是好方法

作者: daniel021477 (tk) 2023-01-10 12:10:00

就是reranker ,我開發也是在用這套，但不同的架構差異很大，我可以理解有人說不喜歡啦，畢竟從AGI來看，這不是一般人認知的智能，但沒辦法我們都是螺絲釘，不是Ilya

繼續閱讀

[討論] 後端比前端工時更長嗎？keev Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不AmosYang Re: [討論] Terry新創不考Leetcode 走回頭路wuyiulin [討論] Terry新創不考Leetcode 走回頭路empliu Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不angus850503 Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不AmosYang Re: [心得] 理工人的升遷之道AmosYang Re: [請益] 轉職iOS工程師需要技能AmosYang Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不SkankHunt42 Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗prag222