[閒聊] 寫程式是AI強，還是人類強 DoraGian PTT批踢踢實業坊

[閒聊] 寫程式是AI強，還是人類強

作者: DoraGian (飲冰) 2024-09-26 09:56:07

── 除非最頂尖，不然人類軟體工程師完全打不贏
程式技術人才評估平台 CodeSignal 近期推出 AI Benchmarking Report，
評估了目前熱門 AI 模型的 Coding 能力，並與「人類」軟體工程師進行比較。
結果發現「普通」軟體工程師的能力已經輸給了大多數的 AI 模型，包含常見的 GPT-4o 或
Claude Sonnet 等等。
甚至 OpenAI 最新推出的 o1 模型，遙遙領先其他模型與普通人類軟體工程師，差距非常大
。
目前只有最頂尖的軟體工程師可以稍微領先 o1 模型！
排名如下：
1. 頂尖軟體工程師
2. o1-preview
3. o1-mini
4. claude-3.5-sonnet
5. gpt-4o
6. llama3.1-405b
7. gemini-1.5-pro
8. gpt-4o-mini
9. 一般軟體工程師
10. gemini-1.5-flash
11. gpt-3.5-turbo
▋ 評估方法
CodeSignal 不是單純測試理論上的程式知識，
而是使用了目前頂尖科技、金融公司用來「面試軟體工程師」的題目。
他們使用了 159 種題目，來測試 AI 和人類的編寫程式和問題解決能力（問題大多需要編
寫約 40 到 60 行程式）
▋ AI 模型表現
‧ o1-preview 和 o1-mini
表現最好的模型，在所有指標中都遙遙領先。
在處理各種問題，表現都非常穩定，能夠成功解決大多數情境中的程式問題。
‧ GPT-4o
在解決完整問題的時候表現出色。
能夠根據反饋不斷改進答案，像人類工程師一樣，逐步修正錯誤。
‧ Claude 3.5 Sonnet
更擅長處理簡單的程式問題。
但在處理多次嘗試的問題（尤其是超過 5 次嘗試）時，模型的表現會下降，甚至會出現偏
離正確解法的情況。
https://www.facebook.com/share/p/pU2p8rucwrs5MapA
中興電機超分台大化學
果然是要沒落的警訊嗎

繼續閱讀

Re: 你們有什麼三十歲的人生建議嗎h0103661 [閒聊] 台中賽車paul1951 Re: [閒聊] 板友救救我CultClassic [ZZZ ] 現在登入小月卡有特效了耶Wardyal [姆咪] 鳴潮的限五差距好像沒有很大MiHoMo [姆咪] 庫洛不像某米膨脹到不抽就是坐牢gwawa0617 Re: [閒聊] 入圍賽猜謎有錢erimow Re: 你們有什麼三十歲的人生建議嗎RuRu0421 nga有什麼好看的板sc95819200 [檔案] 抽不到妃姬杯h0103661