Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

首個AI程式設計師造假被抓Devin再次「震撼」矽谷

首個AI程式設計師造假被抓Devin再次「震撼」矽谷

2024-04-15 Comments 0 Comment

不久之前震撼矽谷的Devin,再度震撼矽谷──但這次是被打假。事情是這樣的:油管程式設計師部落客Internet of Bugs(以下簡稱光頭哥)對Devin的影片進行了逐幀分析,逐一舉證說明了Devin並不如演示中那般神奇。

甚至有「自己現寫bug然後當場修復」的騷操作。

其它“罪證”,包括但不限於:

號稱能解決任何Upwork任務,但示範中解決的問題並不是prompt要解決的那一個,做無用功;

看起來在修復bug,實際上修復的bug人類程式設計師根本就不會犯;

沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實是自己把任務搞複雜了;

修改程式碼的水平一言難盡。

此外,光頭哥花了半個多小時,把Devin示範影片中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。

啊這這這,真是好、大、一、口、瓜!

要知道,背後公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2,100萬美金。

Twitter和YC已經吵翻天了,讓這件事的討論度高居不下。

我請問呢?真的很討厭演示造假,讓demo看起來輕鬆達到意料之外的技術進步。

還有人表示自己很受傷,再也不會相信各種冒出來的新創公司的東西了。

emmmm……我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和機構吧。

完整詳情,一起接著往下看。

35年從業人員逐幀驗證

這次出來聲張正義的光頭哥,從事軟體業已經35年。他首先聲明自己的立場:我並不反對高科技,但我確實反對過度炒作。

他自己也常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事實上,在Devin剛推出時候,他就反對「世界上第一個AI軟體工程師」這個說法。

這次則主要針對的是一些更具體的說法。

例如之前Devin號稱能夠靠處理upwork任務賺錢的。但在真正的演示中Devin並沒有做到這一點。

不相信?沒關係,光頭哥帶著逐幀的證據來了。

總結如下:

Devin所處理的任務並非隨機,而是精心挑選;

與客戶實際需求有很大的出入;

實際操作過程,數次自己創造bug然後再修復;

很多毫無意義的操作,相當於幾十年前在C語言中才用的方法;

? ? ?

首先,來到了示範影片的2.936秒處,在螢幕左上角有顯示他們搜尋過這個內容。因此,這不是所謂「隨機」選擇的任務。

再來看客戶給到的具體需求。真正需求為“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”

但給到Devin的需求卻是:我希望利用這個模型在這個函式庫中進行推理。請自己弄清楚。

在最後影片最後出現的Devin產生報告中,也沒有提及客戶實際需要的內容。

那麼,這份工作的最終交付成果該包含什麼呢?

但Devin實際上做了什麼?

Devin第一次真正的嘗試,是它修改了一個名為requirements.txt檔案,其中規定了程式碼所依賴的函式庫版本。影片中提到它正在更新程式碼,但實際上更像是修改設定檔。

然後根據需求,需要Devin能建立自己的推理能力,並且只需使用範例資料即可。但實際項目比這個複雜得多。

結果很快,Devin就遇到了第一個命令列錯誤——開啟影像失敗、檔案找不到、無此檔案或目錄等。但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。

這相當於Devin自己創建了個bug,然後再修復bug。在接下來的操作中,Devin經歷了許多這樣的「自建自修」。

不能說十分有用,只能說完全沒有必要。

接下來,再來看看程式碼庫中這樣一個readme檔。正如影片所展示的那樣,readme檔案清楚地說明了該檔案的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整個命令,然後貼上到命令列視窗中,按下回車即可運行。

但Devin完全沒能理解,又是自創了個專案。而寫的那段從緩衝區讀取資料的程式碼十分糟糕。

於是光頭哥發出了靈魂拷問:

這不就是幾十年前在C語言等才用的方法嗎? ? ?

這種做法顯然已經過時,正常人用Python誰還會再寫這個程式碼。這種程式碼很難調試,它邏輯複雜,難以理解,很容易出現細微的錯誤。

此外,程式碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。

然後光頭哥用Google搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題就解決了。

最後光頭哥總共花了35分55秒復現了Devin的工作,而Devin實際上花了多久時間呢?

如果細看影片Demo,就會發現Devin處理工作前後有6小時20分鐘的間隔。

影片的前段顯示的是3月9日下午3:25 的時間戳,但後半部卻顯示的是當天晚上9:41。

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

例如head -N 5 results.json | tail -N 5這個指令,它表示取這個JSON 檔案的前五行,然後再取這些行的最後五行。

正確的做法應該是”head-5 results.json」。那個-N 是多餘的。只要說-5 就可以,不需要那些多餘的東西。

最後光頭哥銳評,AI現在生成的內容很多都十分愚蠢,反倒會讓事情變得更複雜。

當看到它的任務清單時,會覺得:哇,Devin做了很多事。但實際上可能並非如此。

網友:至少掌握了看起來很忙的技巧

對於這次D​​evin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。

我真的很討厭現在示範造假變得如此正常化

甚至還列出了三大炒作典範:Devin、rabbit、Humane。

也有網友調侃:Devin至少掌握了看起來很忙的技巧。

嗯?打工人有被內涵到。

不過也有一些支持的網友,像是這位華頓商學院的教授Ethan Mollick。

他聲稱自己有早期訪問權,在體驗中發現真的很有趣。

他認為現在將Agent視為「炒作」為時過早,未來幾個月Agent的能力將十分強大。

號稱“世界首個完全自主的AI軟體工程師”

有趣的是,示範造假事件爆出來的時間,距離Cognition AI推出Devin只過了一個月。

咱們一起來回顧一下。

一個月前的3月13日,Cognition AI在Twitter上介紹了自家推出的Devin,並稱其為「世界上首個AI軟體工程師」 。

只需一句指令,它可端到端地處理整個開發專案。

圖片

主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟體工程任務。

具體來說有6大功能:

端到端建置和部署程序,可以解決的不只是程式碼問題,還包括與之相關的整個工作流程;

自主查找並修復bug;

訓練和微調自己的AI模型;

修復開源庫;

為成熟的生產庫做貢獻;

超強學習能力,即時補足知識與能力短板。

Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決13.86%的問題

——這個數據看起來不高,但其實已經超過了先前所有AI大模型的成績。

目前數一數二的GPT-4,在同一次測驗中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。

圖片

當時的Devin團隊一副沒在怕的樣子。

雖然沒開放公測,但陸陸續續給了一些內測名額。

在網路上搜尋一番,發現上手體驗過的人給的買家秀回饋是這樣的:

熱衷AI的華頓商學院教授Ethan Molick試過後,認為其新穎的即時互動方式是最值得關注的。

他要求Devin開發一個解釋「新創公司融資中的股權稀釋」的網站,隨後透露,AI還無法在沒有任何幫助的情況下,自主且無錯誤地完成這項工作。。

圖片

但也有人直接表示,體驗過後確實有被震撼到。

圖片

巧的是,截圖中的這個首批內測體驗者Bubna哥,是AI基礎設施新創公司Modal Labs的CTO。

後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的帳號,潛入Modal Labs的工作群,和Bubna哥一番交流過後,根據回覆調整了代碼方案,解決了一個技術問題。

圖片

△圖中的發言人背後其實是Devin

當然,除了看上去牛X哄哄的技術,Devin還鍍了一層光環,那就是背後公司Cognition,雖然是個小初創,但在招人資訊中明晃晃寫著:

我們團隊手裡握著10塊IOI金牌呢~

圖片

技術展示和團隊背景都吸睛Max,直接為Devin的傳播力度添磚加瓦。

也正是因為對Devin的關注,程式碼產生領域在過去一段時間進展是突飛猛進。

暫時無法在飛文書文檔外展示此內容

例如,GitHub三萬Star專案MetaGPT就上新了“開源版Devin”,名為資料解釋器(Data Interpreter):

阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目,一個月過去已在GitHub攬星21.5k;

圖片

普林斯頓那邊動作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復GitHub儲存庫中真實bug。

在25%的SWE-bench測試集上,它實現了與Devin演示影片中相似的準確度—— 解決了12.29%的問題。

還有各個大廠也開始進駐自己的AI程式設計師…

One More Thing

結果現在發生這件事兒,怎麼說呢…

往好了想,真是救大命了,所有的程式設計師們都要鬆口氣了,還好還好,AI暫時還無法端到端端走我的飯碗。

往壞了想,真是要了命了,這麼一個備受關注的明星項目居然是個只能活在影片裡的demo。

難道世界真的是個巨大的草台班子? ? ?

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
電商巨頭加碼AI 知名專家再進“大廠”
NEXT
理想車主炫耀無人駕駛功能蒙臉躺在主駕做頭部SPA

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 4 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 3 月   5 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 川普宣布美國自下個月起將對加拿大商品徵收35%關稅 2025-07-11
  • 印度墜機事故調查目前聚焦於飛行員行為和飛機燃油開關 2025-07-11
  • 寧德時代再訴舊部吳祖缽:無關技術,只有恩仇? 2025-07-11
  • 最新研究認為電動車全生命週期碳排放量比燃油車低73% 2025-07-11
  • 三星Galaxy S26系列現身首發雞血版驍龍8 Elite 2 2025-07-11
  • 《極速快感18》將於10月7日停售將無法線上遊玩 2025-07-11
  • 新版超人是移民?前超人演員痛批好萊塢「覺醒」文化 2025-07-11
  • SpaceX的Starlink利潤不足以資助星際飛船密集測試帶來的帳單 2025-07-11
  • SpaceX 和NASA 為載人龍飛船第六次復用做好準備 2025-07-11
  • 鮑勃·伊格爾向白宮表達了對AI濫用迪士尼標誌性人物和故事內容的擔憂 2025-07-11

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • Photon Matrix:針對蚊子的“防空系統”
  • 百度地圖新增攤位上傳綠色通道用戶使用地圖可直接導航至地攤前
  • TIM for Windows v2.3.0.20979 正式版发布
  • 曝鈴木汽車因中國稀土管制全面停產主力車型雨燕
  • 完整驅動程序解決方案Treexy Driver Fusion v8.1.0 + v1.7.0 Premium
  • ABC/CBS/Fox/NBC紛紛向免費電視流媒體應用Locast發起訴訟
  • CorelDRAW Graphics Suite 2020 v22.1.0.517
  • 微信調整新裝置登入驗證功能可以人臉辨識取代先前兩位好友驗證碼

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.