AI程式設計師Devin臥底工作群修bug 也和CTO聊天技術
首個AI程式設計師Devin,現身明星新創公司內部群。為解決一個技術問題,Devin借用了其創造者的帳號,與客戶公司的CTO交流,並根據回應調整了代碼方案。對話之專業,圍觀者看了直呼這個世界太瘋狂。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/4c7524cf7bbf90e.webp?w=640&ssl=1)
事情發生在辦公室軟體Slack,截圖中的akshat是AI基礎設施新創公司Modal Labs的CTO Akshat Bubna。
Modal Labs也是Devin開發商Cognition的首批客戶之一。
此時Devin正披著他的創造者之一、IOI金牌得主Steven Hao的馬甲。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/97b47ec3d6c52e9.webp?w=640&ssl=1)
對話的開始,AI程式設計師Devin正在詢問有關Modal Lab平台的密鑰的生命週期問題,特別是密鑰更新後傳播到正在運行的應用程式所需的時間。
Devin表示自己已經查閱了文檔,包括金鑰和環境變數指南、CLI指令參考、API參考以及容器生命週期鉤子和參數,但依舊沒有找到關於金鑰傳播時間的明確資訊。
Devin詢問了更新的金鑰通常需要多長時間才能被運行中的應用程式使用,因為這對於他們的營運至關重要,了解這一點將有助於管理他們的部署流程。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/85106d020e37fa9.webp?w=640&ssl=1)
人類CTO解釋說,當金鑰更新時,他們不會使已經運行的Modal容器失效,但是新啟動的容器將會讀取更新後的值。
Devin對此表示感謝,並決定暫時採用手動方法來管理Modal中的金鑰,即在需要時呼叫modal deploy指令來觸發相關應用程式容器的重新啟動。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/1584bf0202818b8.webp?w=640&ssl=1)
看完整個過程後,同樣是AI創業家的Raunak Chowdhuri評價到:
發現問題、創建工單、調整程式碼,最好的人類開發者就是這麼工作的。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/7a358b2488e6e37.webp?w=640&ssl=1)
Devin更多實測結果
拿到Devin早期測試資格的人和公司不多,不過還是陸陸續續有人曬出實測結果。
熱衷AI的華頓商學院教授Ethan Molick試過後,認為其新穎的即時互動方式是最值得關注的。
您可以隨時與它“交談”,就像與人交談一樣,它會在後台不斷地執行和調試您的想法。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/e11f745ee83d857.gif?w=640&ssl=1)
在測試中,Ethan Mollick要求Devin開發一個解釋「新創公司融資中的股權稀釋」的網站。
不過他透露,AI還無法在沒有任何幫助的情況下,自主且無錯誤地完成這項工作。
要想把一個重大項目交給人工智慧來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/f4ad09a70aae13d.webp?w=640&ssl=1)
另一位曬出測試過程的創業家Mckay Wrigley則更激動一些。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/a12e02999650803.webp?w=640&ssl=1)
在他曬出的27分鐘測試中,只發了一個GitHub連接,讓Devin部署來自開源專案的程式碼。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/eec726e7877da6a.webp?w=640&ssl=1)
Devin自主把任務拆解成一系列子步驟,一步一步開始執行。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/7dc6d8fdf743193.webp?w=640&ssl=1)
執行過程中,Devin在安裝Supabase資料庫時遇到了障礙,自己打開了對應的Github倉庫開始查閱文件…
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/7e4a96e0e7aa038.webp?w=640&ssl=1)
從後續終端回饋可以看出,Devin查到了運行Supabase所需的各種連接埠和密匙都應該填什麼。
(裝過的都知道,雀食挺麻煩……)
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/e56d7460a4a5f7d.webp?w=640&ssl=1)
同時,Devin也正在根據實際情況不斷修改自己的後續計畫。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/6c96d55eaf6ec99.webp?w=640&ssl=1)
一段時間過後,一個本地的聊天機器人程式就跑起來了。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/001f22457123543.webp?w=640&ssl=1)
測試一段時間後Mckay Wrigley認為,Devin已經可以算Agent的ChatGPT時刻。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/e4ba58b1aa0cf33.webp?w=640&ssl=1)
復現Devin計劃ing
Devin這邊大夥還在接連測試,另一邊開源「復現」方案也在進行中…
這不,GitHub三萬Star專案MetaGPT就上新了「開源版Devin」。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0317/34557a043ba482b.webp?w=640&ssl=1)
名為資料解釋器(Data Interpreter):
![](https://i0.wp.com/d.ifengimg.com/w940_h848_q90_webp/x0.ifengimg.com/ucms/2024_12/2AB0C9C239A6F16C8CB5134DC3C0552E307CB893_size466_w940_h848.png?w=640&ssl=1)
和Devin一樣,Data Interpreter也能實現自主編程,能迭代式觀察數據,預測分析病情進展、機器運作狀態;還能建構機器學習模型、進行數學推理、自動回覆電子郵件、仿寫網站…
例如從英偉達股價數據分析收盤價格趨勢:
![](https://i0.wp.com/x0.ifengimg.com/ucms/2024_12/F9B1B76B15A6CD77A07D1737BBFDE3CE035EBE20_size1654_w734_h412.gif?w=640&ssl=1)
分析數據預測葡萄酒品質:
![](https://i0.wp.com/x0.ifengimg.com/ucms/2024_12/844FDE512CBFDE195EB1EA856E1E079E17DCCE53_size3310_w740_h412.gif?w=640&ssl=1)
除此之外,阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目,剛起步已獲得1.2k Star。
![](https://i0.wp.com/d.ifengimg.com/w1080_h727_q90_webp/x0.ifengimg.com/ucms/2024_12/5B875B0344AE70AC9DE2E9B9F144516A5C57C94A_size243_w1080_h727.png?w=640&ssl=1)
Binyan Hui發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間內就完成了前端原型。
同時專案團隊也在招募新成員:
![](https://i0.wp.com/d.ifengimg.com/w946_h430_q90_webp/x0.ifengimg.com/ucms/2024_12/22CC9C1F922FEE326A757489FE99E16FFEAC116C_size98_w946_h430.png?w=640&ssl=1)
另外,也有一個名為Maisa AI的團隊推出了Maisa KPU(Knowledge Processing Unit),被網友認為與Devin有一些競爭。
![](https://i0.wp.com/d.ifengimg.com/w942_h216_q90_webp/x0.ifengimg.com/ucms/2024_12/60358A1D820C88C062B01DBDAA24D42E8A2AFE4F_size63_w942_h216.png?w=640&ssl=1)
目前Maisa KPU處於測試階段,它可以解決複雜問題和推理,團隊發布的基準測試結果如下:
![](https://i0.wp.com/d.ifengimg.com/w900_h549_q90_webp/x0.ifengimg.com/ucms/2024_12/38BBE4F2DDCBB6851BA7A98733CDC18289DCC79C_size234_w900_h549.png?w=640&ssl=1)
根據demo展示,KPU可以成為“智慧客服”,在客戶沒有正確寫好訂單號碼的情況下,幫助客戶解決訂單未送達的問題:
![](https://i0.wp.com/x0.ifengimg.com/ucms/2024_12/D0B824C3272F0E87AB08CB94D95A4A6BC0F54E7C_size3808_w480_h272.gif?w=640&ssl=1)
Devin基準測試技術報告發布
最近,Devin創始團隊Cognition也發布關於SWE-bench測試的技術報告。
除了先前已公佈的測試結果之外,團隊還透露了一些新消息。
![](https://i0.wp.com/d.ifengimg.com/w1080_h876_q90_webp/x0.ifengimg.com/ucms/2024_12/CE9CBF3B84CEAD3CABE94631EAEB9A95DCF819DD_size100_w1080_h876.png?w=640&ssl=1)
例如,Cognition的目標之一是讓Devin這個專門從事軟體開發的AI智能體能夠成功地為大型、複雜的程式碼庫貢獻程式碼。
選擇在SWE-bench上端到端運行智能體,也是考慮了它更接近現實世界的軟體開發。
此外,研發團隊還透露,為了防止Devin在測試中作弊,例如查找外部的pull requests信息,測試已做相關設置,確保Devin無法訪問相關信息,並且在此過程中也已人工手動檢查了Devin運行情況。
![](https://i0.wp.com/d.ifengimg.com/w1080_h487_q90_webp/x0.ifengimg.com/ucms/2024_12/0BF8781C544BA3EBF8D4368F3FC42DB66AA24AD0_size76_w1080_h487.png?w=640&ssl=1)
最後團隊強調Devin仍處於起步階段,仍有很大進步空間:
![](https://i0.wp.com/d.ifengimg.com/w1080_h269_q90_webp/x0.ifengimg.com/ucms/2024_12/99D357C7C751D24296F1295F0C33457EA184E448_size39_w1080_h269.png?w=640&ssl=1)
更多細節有興趣的家人們可查看報告詳情。
Devin發布不到一周,網友們的討論已十分熱烈。
例如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。
以後Stack Overflow都是各種Devin在提問,人,就只能被擠出去(Stack Overflow危!!!):
![](https://i0.wp.com/d.ifengimg.com/w950_h364_q90_webp/x0.ifengimg.com/ucms/2024_12/373EEEA47A29F3276B861E2CD4CCC22623D76DFC_size70_w950_h364.png?w=640&ssl=1)
有網友回應(手排狗頭):
它們可以互相回答問題。
![](https://i0.wp.com/d.ifengimg.com/w944_h152_q90_webp/x0.ifengimg.com/ucms/2024_12/13AFCBCE3D84049EC9A192ADA8D6A64703AB97BF_size34_w944_h152.png?w=640&ssl=1)
還有網友發現Devin背後團隊Cognition正在招募全職軟體工程師,於是緩緩打出一個問號:
Devin不是應該填補這些職缺來為他們省錢嗎?
![](https://i0.wp.com/d.ifengimg.com/w802_h1528_ablur_q90_webp/x0.ifengimg.com/ucms/2024_12/436887BF9CA6F6909E9FB4C172E5FEA246D7FDAC_size309_w802_h1528.png?w=640&ssl=1)
最後,若Devin公開你會想用它乾點啥?
參考連結:
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375
[3]https://twitter.com/emollick/status/1768742585122558063
[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20
來源:量子位