首個AI程式設計師造假被抓Devin再次「震撼」矽谷
不久之前震撼矽谷的Devin,再度震撼矽谷──但這次是被打假。事情是這樣的:油管程式設計師部落客Internet of Bugs(以下簡稱光頭哥)對Devin的影片進行了逐幀分析,逐一舉證說明了Devin並不如演示中那般神奇。
甚至有「自己現寫bug然後當場修復」的騷操作。
其它“罪證”,包括但不限於:
號稱能解決任何Upwork任務,但示範中解決的問題並不是prompt要解決的那一個,做無用功;
看起來在修復bug,實際上修復的bug人類程式設計師根本就不會犯;
沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞複雜了;
修改程式碼的水平一言難盡。
此外,光頭哥花了半個多小時,把Devin示範影片中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。
啊這這這,真是好、大、一、口、瓜!
要知道,背後公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2,100萬美金。
Twitter和YC已經吵翻天了,讓這件事的討論度高居不下。
我請問呢?真的很討厭演示造假,讓demo看起來輕鬆達到意料之外的技術進步。
還有人表示自己很受傷,再也不會相信各種冒出來的新創公司的東西了。
emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。
完整詳情,一起接著往下看。
35年從業人員逐幀驗證
這次出來聲張正義的光頭哥,從事軟體業已經35年。他首先聲明自己的立場:我並不反對高科技,但我確實反對過度炒作。
他自己也常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事實上,在Devin剛推出時候,他就反對「世界上第一個AI軟體工程師」這個說法。
這次則主要針對的是一些更具體的說法。
例如之前Devin號稱能夠靠處理upwork任務賺錢的。但在真正的演示中Devin並沒有做到這一點。
不相信?沒關係,光頭哥帶著逐幀的證據來了。
總結如下:
Devin所處理的任務並非隨機,而是精心挑選;
與客戶實際需求有很大的出入;
實際操作過程,數次自己創造bug然後再修復;
很多毫無意義的操作,相當於幾十年前在C語言中才用的方法;
? ? ?
首先,來到了示範影片的2.936秒處,在螢幕左上角有顯示他們搜尋過這個內容。因此,這不是所謂「隨機」選擇的任務。
再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”
但給到Devin的需求卻是:我希望利用這個模型在這個函式庫中進行推理。請自己弄清楚。
在最後影片最後出現的Devin產生報告中,也沒有提及客戶實際需要的內容。
那麼,這份工作的最終交付成果該包含什麼呢?
但Devin實際上做了什麼?
Devin第一次真正的嘗試,是它修改了一個名為requirements.txt檔案,其中規定了程式碼所依賴的函式庫版本。影片中提到它正在更新程式碼,但實際上更像是修改設定檔。
然後根據需求,需要Devin能建立自己的推理能力,並且只需使用範例資料即可。但實際項目比這個複雜得多。
結果很快,Devin就遇到了第一個命令列錯誤——開啟影像失敗、檔案找不到、無此檔案或目錄等。但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。
這相當於Devin自己創建了個bug,然後再修復bug。在接下來的操作中,Devin經歷了許多這樣的「自建自修」。
不能說十分有用,只能說完全沒有必要。
接下來,再來看看程式碼庫中這樣一個readme檔。正如影片所展示的那樣,readme檔案清楚地說明了該檔案的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整個命令,然後貼上到命令列視窗中,按下回車即可運行。
但Devin完全沒能理解,又是自創了個專案。而寫的那段從緩衝區讀取資料的程式碼十分糟糕。
於是光頭哥發出了靈魂拷問:
這不就是幾十年前在C語言等才用的方法嗎? ? ?
這種做法顯然已經過時,正常人用Python誰還會再寫這個程式碼。這種程式碼很難調試,它邏輯複雜,難以理解,很容易出現細微的錯誤。
此外,程式碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。
然後光頭哥用Google搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題就解決了。
最後光頭哥總共花了35分55秒復現了Devin的工作,而Devin實際上花了多久時間呢?
如果細看影片Demo,就會發現Devin處理工作前後有6小時20分鐘的間隔。
影片的前段顯示的是3月9日下午3:25 的時間戳,但後半部卻顯示的是當天晚上9:41。
而逐幀細看就有會發現一些奇怪且毫無意義的操作。
例如head -N 5 results.json | tail -N 5這個指令,它表示取這個JSON 檔案的前五行,然後再取這些行的最後五行。
正確的做法應該是”head-5 results.json」。那個-N 是多餘的。只要說-5 就可以,不需要那些多餘的東西。
最後光頭哥銳評,AI現在生成的內容很多都十分愚蠢,反倒會讓事情變得更複雜。
當看到它的任務清單時,會覺得:哇,Devin做了很多事。但實際上可能並非如此。
網友:至少掌握了看起來很忙的技巧
對於這次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。
我真的很討厭現在示範造假變得如此正常化
甚至還列出了三大炒作典範:Devin、rabbit、Humane。
也有網友調侃:Devin至少掌握了看起來很忙的技巧。
嗯?打工人有被內涵到。
不過也有一些支持的網友,像是這位華頓商學院的教授Ethan Mollick。
他聲稱自己有早期訪問權,在體驗中發現真的很有趣。
他認為現在將Agent視為「炒作」為時過早,未來幾個月Agent的能力將十分強大。
號稱“世界首個完全自主的AI軟體工程師”
有趣的是,示範造假事件爆出來的時間,距離Cognition AI推出Devin只過了一個月。
咱們一起來回顧一下。
一個月前的3月13日,Cognition AI在Twitter上介紹了自家推出的Devin,並稱其為「世界上首個AI軟體工程師」 。
只需一句指令,它可端到端地處理整個開發專案。
主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟體工程任務。
具體來說有6大功能:
端到端建置和部署程序,可以解決的不只是程式碼問題,還包括與之相關的整個工作流程;
自主查找並修復bug;
訓練和微調自己的AI模型;
修復開源庫;
為成熟的生產庫做貢獻;
超強學習能力,即時補足知識與能力短板。
Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決13.86%的問題
——這個數據看起來不高,但其實已經超過了先前所有AI大模型的成績。
目前數一數二的GPT-4,在同一次測驗中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。
當時的Devin團隊一副沒在怕的樣子。
雖然沒開放公測,但陸陸續續給了一些內測名額。
在網路上搜尋一番,發現上手體驗過的人給的買家秀回饋是這樣的:
熱衷AI的華頓商學院教授Ethan Molick試過後,認為其新穎的即時互動方式是最值得關注的。
他要求Devin開發一個解釋「新創公司融資中的股權稀釋」的網站,隨後透露,AI還無法在沒有任何幫助的情況下,自主且無錯誤地完成這項工作。。
但也有人直接表示,體驗過後確實有被震撼到。
巧的是,截圖中的這個首批內測體驗者Bubna哥,是AI基礎設施新創公司Modal Labs的CTO。
後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的帳號,潛入Modal Labs的工作群,和Bubna哥一番交流過後,根據回覆調整了代碼方案,解決了一個技術問題。
△圖中的發言人背後其實是Devin
當然,除了看上去牛X哄哄的技術,Devin還鍍了一層光環,那就是背後公司Cognition,雖然是個小初創,但在招人資訊中明晃晃寫著:
我們團隊手裡握著10塊IOI金牌呢~
技術展示和團隊背景都吸睛Max,直接為Devin的傳播力度添磚加瓦。
也正是因為對Devin的關注,程式碼產生領域在過去一段時間進展是突飛猛進。
暫時無法在飛文書文檔外展示此內容
例如,GitHub三萬Star專案MetaGPT就上新了“開源版Devin”,名為資料解釋器(Data Interpreter):
阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目,一個月過去已在GitHub攬星21.5k;
普林斯頓那邊動作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復GitHub儲存庫中真實bug。
在25%的SWE-bench測試集上,它實現了與Devin演示影片中相似的準確度—— 解決了12.29%的問題。
還有各個大廠也開始進駐自己的AI程式設計師…
One More Thing
結果現在發生這件事兒,怎麼說呢…
往好了想,真是救大命了,所有的程式設計師們都要鬆口氣了,還好還好,AI暫時還無法端到端端走我的飯碗。
往壞了想,真是要了命了,這麼一個備受關注的明星項目居然是個只能活在影片裡的demo。
難道世界真的是個巨大的草台班子? ? ?