[閒聊] 寫程式是AI強,還是人類強

作者: DoraGian (飲冰)   2024-09-26 09:56:07
── 除非最頂尖,不然人類軟體工程師完全打不贏
程式技術人才評估平台 CodeSignal 近期推出 AI Benchmarking Report,
評估了目前熱門 AI 模型的 Coding 能力,並與「人類」軟體工程師進行比較。
結果發現「普通」軟體工程師的能力已經輸給了大多數的 AI 模型,包含常見的 GPT-4o 或
Claude Sonnet 等等。
甚至 OpenAI 最新推出的 o1 模型,遙遙領先其他模型與普通人類軟體工程師,差距非常大

目前只有最頂尖的軟體工程師可以稍微領先 o1 模型!
排名如下:
1. 頂尖軟體工程師
2. o1-preview
3. o1-mini
4. claude-3.5-sonnet
5. gpt-4o
6. llama3.1-405b
7. gemini-1.5-pro
8. gpt-4o-mini
9. 一般軟體工程師
10. gemini-1.5-flash
11. gpt-3.5-turbo
▋ 評估方法
CodeSignal 不是單純測試理論上的程式知識,
而是使用了目前頂尖科技、金融公司用來「面試軟體工程師」的題目。
他們使用了 159 種題目,來測試 AI 和人類的編寫程式和問題解決能力(問題大多需要編
寫約 40 到 60 行程式)
▋ AI 模型表現
‧ o1-preview 和 o1-mini
表現最好的模型,在所有指標中都遙遙領先。
在處理各種問題,表現都非常穩定,能夠成功解決大多數情境中的程式問題。
‧ GPT-4o
在解決完整問題的時候表現出色。
能夠根據反饋不斷改進答案,像人類工程師一樣,逐步修正錯誤。
‧ Claude 3.5 Sonnet
更擅長處理簡單的程式問題。
但在處理多次嘗試的問題(尤其是超過 5 次嘗試)時,模型的表現會下降,甚至會出現偏
離正確解法的情況。
https://www.facebook.com/share/p/pU2p8rucwrs5MapA
中興電機超分台大化學
果然是要沒落的警訊嗎

Links booklink

Contact Us: admin [ a t ] ucptt.com