[新聞] AI程式設計師Devin臥底工作群修bug!和CTO jackliao1990 PTT批踢踢實業坊

[新聞] AI程式設計師Devin臥底工作群修bug!和CTO

作者: jackliao1990 (jack) 2024-03-18 20:22:41

AI程式設計師Devin臥底工作群修bug！和CTO聊技術，”頂級碼農水平”
https://www.qbitai.com/2024/03/128338.html
夢晨
Agent的ChatGPT時刻
首個AI程式設計師 Devin ，現身明星新創公司內部群。
為解決一個技術問題，Devin借用了其創造者的帳號，與客戶公司的CTO交流，並根據回
應調整了代碼方案。
對話之專業，圍觀者看了直呼這個世界太瘋狂。
https://tinyurl.com/5n7zpdnf
事情發生在辦公室軟體Slack，截圖中的akshat是AI基礎設施新創公司 Modal Labs 的
CTO Akshat Bubna 。
Modal Labs也是Devin開發商Cognition的首批客戶之一。
此時Devin正披著他的創造者之一、IOI金牌得主 Steven Hao 的馬甲。
對話的開始，AI程式設計師Devin正在詢問有關Modal Lab平台的密鑰的生命週期問題，特
別是密鑰更新後傳播到正在運行的應用程式所需的時間。
Devin表示自己已經查閱了文檔，包括金鑰和環境變數指南、CLI指令參考、API參考以
及容器生命週期鉤子和參數，但依舊沒有找到關於金鑰傳播時間的明確資訊。
Devin詢問了更新的金鑰通常需要多長時間才能被運行中的應用程式使用，因為這對於他
們的營運至關重要，了解這一點將有助於管理他們的部署流程。
人類CTO解釋說，當金鑰更新時，他們不會使已經運行的Modal容器失效，但是新啟動的容
器將會讀取更新後的值。
Devin對此表示感謝，並決定暫時採用手動方法來管理Modal中的金鑰，即在需要時呼叫
modal deploy指令來觸發相關應用程式容器的重新啟動。
看完整個過程後，同樣是AI創業家的Raunak Chowdhuri評價到：
發現問題、創建工單、調整程式碼，最好的人類開發者就是這麼工作的。
Devin更多實測結果
拿到Devin早期測試資格的人和公司不多，不過還是陸陸續續有人曬出實測結果。
熱衷AI的華頓商學院教授 Ethan Molick 試過後，認為其新穎的即時互動方式是最值得關
注的。
您可以隨時與它“交談”，就像與人交談一樣，它會在後台不斷地執行和調試您的想
法。
在測試中，Ethan Mollick要求Devin開發一個解釋「新創公司融資中的股權稀釋」的網站
。
不過他透露，AI還無法在沒有任何幫助的情況下，自主且無錯誤地完成這項工作。
要想把一個重大項目交給人工智慧來完成，還有很長的路要走，但這仍然是一個令人
著迷的開始。
另一位曬出測試過程的創業家 Mckay Wrigley 則更激動一些。
在他曬出的27分鐘測試中，只發了一個GitHub連接，讓Devin部署來自開源專案的程式碼
。
Devin 自主把任務拆解成一系列子步驟，一步一步開始執行。
執行過程中，Devin在安裝Supabase資料庫時遇到了障礙，自己打開了對應的Github倉庫
開始查閱文件 …
從後續終端回饋可以看出，Devin查到了運行Supabase所需的各種連接埠和密匙都應該填
什麼。
（裝過的都知道，雀食挺麻煩……）
同時，Devin也正在根據實際情況不斷修改自己的後續計畫。
一段時間過後，一個本地的聊天機器人程式就跑起來了。
測試一段時間後Mckay Wrigley認為， Devin已經可以算Agent的ChatGPT時刻。
復現Devin計劃ing
Devin這邊大夥還在接連測試，另一邊開源「復現」方案也在進行中…
這不，GitHub三萬Star專案 MetaGPT 就上新了「開源版Devin」。
名為資料解釋器（Data Interpreter）：
和Devin一樣，Data Interpreter也能實現自主編程，能迭代式觀察數據，預測分析病情
進展、機器運作狀態；還能建構機器學習模型、進行數學推理、自動回覆電子郵件、仿寫
網站…
例如從英偉達股價數據分析收盤價格趨勢：
https://tinyurl.com/4h8xkfsx
分析數據預測葡萄酒品質：
https://tinyurl.com/479u8adk
除此之外，阿里Qwen成員Binyan Hui等人開啟了 OpenDevin 項目，剛起步已獲得1.2k
Star。
Binyan Hui發推文表示，已有一個初步的路線圖和一群優秀的人在努力工作，在很短的時
間內就完成了前端原型。
同時專案團隊也在招募新成員：
https://tinyurl.com/4zp34x9d
另外，也有一個名為Maisa AI的團隊推出了 Maisa KPU （Knowledge Processing Unit）
，被網友認為與Devin有一些競爭。
目前Maisa KPU處於測試階段，它可以解決複雜問題和推理，團隊發布的基準測試結果如
下：
https://tinyurl.com/y6k7k99w
根據demo展示，KPU可以成為“智慧客服”，在客戶沒有正確寫好訂單號碼的情況下，幫
助客戶解決訂單未送達的問題：
https://tinyurl.com/3pt7t759
Devin基準測試技術報告發布
最近，Devin創始團隊Cognition也發布關於SWE-bench測試的技術報告。
除了先前已公佈的測試結果之外，團隊還透露了一些新消息。
例如，Cognition的目標之一是讓Devin這個專門從事軟體開發的AI智能體能夠成功地為大
型、複雜的程式碼庫貢獻程式碼。
選擇在SWE-bench上端到端運行智能體，也是考慮了它更接近現實世界的軟體開發。
此外，研發團隊還透露，為了防止Devin在測試中作弊，例如查找外部的pull requests信
息，測試已做相關設置，確保Devin無法訪問相關信息，並且在此過程中也已人工手動檢
查了Devin運行情況。
最後團隊強調Devin仍處於起步階段，仍有很大進步空間：
https://tinyurl.com/42amb7wc
更多細節有興趣的家人們可查看報告詳情。
Devin發布不到一周，網友們的討論已十分熱烈。
例如，這位大兄弟表示自己一年前擔心的事兒終究還是發生了。
以後Stack Overflow 都是各種Devin在提問，人，就只能被擠出去（Stack Overflow危
！！！）
有網友回應（手排狗頭）：
它們可以互相回答問題。
還有網友發現Devin背後團隊Cognition正在招募全職軟體工程師，於是緩緩打出一個問號
：
Devin不是應該填補這些職缺來為他們省錢嗎？
最後，若Devin公開你會想用它幹點啥？
參考連結：
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375
[3]https://twitter.com/emollick/status/1768742585122558063
[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20

繼續閱讀

Re: [新聞] 確定了！鄭文燦：台積電先進封裝廠落腳MrTaxes [討論] 美國有求於台積電，態度還這麼差???aocboy [新聞] 確定了！鄭文燦：台積電先進封裝廠落腳semih [新聞] 路透：台積電考慮將「台灣限定CoWoS技術jeff0025 [請益] 45歲傳產/國營選擇afmodr [新聞] 歐盟將蘋果、Meta等6家公司列為《數位市stpiknow [新聞] 頭款有400萬！竹科小夫妻「年收360萬」godofsex [新聞] 緯創手筆勝五哥！林憲銘談IP布局「要當智財權輸出者」AAAB [請益] offer 請益kib751001 Re: [討論] 十年內會被AI取代的工程師有哪些MTKer5566