AI程式王者易主:Gemini 2.5 Pro I/O版力壓Claude 3.7 Sonnet
AI程式設計領域迎來了新的王者:GoogleDeepMind人工智慧研究部門週二發布了全新升級的Gemini 2.5 Pro “I/O”版,這是其今年3月推出、大受歡迎的多模態大語言模型Gemini 2.5 Pro的最新版本。 DeepMind首席執行官 Demis Hassabis在社交媒體上表示,這是“我們構建過的最佳編程模型!”
Google公佈的初步基準測試結果印證了這項說法。數據顯示,自2022年底ChatGPT正式掀起生成式人工智慧熱潮以來,Google首次在關鍵程式設計基準測試中超越所有其他模型,躍居榜首。
此次更新的模型版本編號為“gemini-2.5-pro-preview-05-06”,已取代先前的03-25版本,並已面向Google AI Studio的獨立開發者、Vertex AI雲端平台的企業用戶,以及Gemini行動應用程式的個人用戶全面開放。 Google在官方部落格文章中表示,該模型也驅動Gemini行動應用程式中的Canvas等多項功能。
新版本為Gemini 95等應用的功能開發提供支持,其模型可自動匹配跨組件的視覺風格。此版本還支援將YouTube影片轉化為全功能學習應用程式等複雜工作流程,並能創建高度樣式化的元件——如響應式影片播放器或動畫聽寫介面——幾乎無需手動編寫CSS程式碼。
作為專有模型,企業需付費並透過Google的網路服務存取。不過本次更新未調整價格與呼叫限制:目前Gemini 2.5 Pro用戶將自動升級至新版本,定價仍為每百萬tokens輸入/輸出分別1.25/10美元(支援20萬tokens的上下文長度),相較Claude 3.7 Sonnet的3/15美元定價具有優勢。
Google選擇在年度I/O開發者大會(5月20-21日於山景城及線上舉行)前夕推出更新,官方表示這是對開發者社群關於Gemini在實際程式碼產生和介面設計中實用性的強烈回饋的回應。 Gemini API與Google AI Studio高級產品經理 Logan Kilpatrick(Logan Kilpatrick)在開發者部落格中確認,本次更新有效回應了開發者關於函數呼叫的關鍵回饋,在減少錯誤和提升觸發可靠性方面取得顯著改進。
在人類評分員的網頁應用程式產生任務中排名第一
在第三方評估標準WebDev Arena排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實用的網頁應用方面獲得了最高人類評分,成功超越Anthropic的Claude 3.7 Sonnet,躍居第一。
新版本模型得分為1499.95,顯著高於Sonnet 3.7的1377.10。前代Gemini 2.5 Pro(03-25)以1278.96分位列第三,I/O版相較之下提升了221分。
正如AI領域資深用戶「Lisan al Gaib」在X上指出的,即使是OpenAI新發布的GPT-4o(「o3」)都未能動搖Sonnet 3.7的地位,足見Gemini此次躍升的突破性。
這項效能躍升體現在生成內容的可靠性、美觀與實用性等方面的全面提升。
獲得開發者廣泛好評
Gemini 2.5 Pro Preview(05-06)迅速獲得開發者社群廣泛好評,多位產業領袖稱其可靠性和生產場景應用表現遠超以往:
人工智慧新創公司Cognition共同創辦人塞拉斯‧阿爾貝蒂(Silas Alberti)指出,Gemini 2.5 Pro是首個成功完成複雜後端路由系統重構的AI模型,展現出類似資深開發者的判斷與決策能力。
AI程式設計平台Cursor執行長 Michael Truell(Michael Truell)稱,內部測試顯示工具呼叫失敗率明顯下降,過去這一問題飽受批評。他認為用戶將在真實開發環境中明顯感受到新版本效能提升。 Cursor已將Gemini 2.5 Pro整合進其程式設計智能體中,顯示開發者已將其視為智慧開發工作流程中的元件。
雲端協同開發平台Replit總裁米歇爾·卡塔斯塔(Michele Catasta)認為,Gemini 2.5 Pro是在模型效能與反應速度之間實現最佳平衡的前沿模型。他的評估暗示,Replit正在考慮將該模型納入自身工具體系中,特別是在需要反應速度與穩定性的任務場景中。
AI教育者兼BlueShell私有AI聊天機器人創始人保羅·庫弗特(Paul Couvert)表示:“Gemini 2.5 Pro的代碼與用戶界面生成能力令人驚艷。”
AI藝術工具EverArt執行長彼得羅·斯基拉諾(Pietro Schirano)稱,Gemini 2.5 Pro I/O版能夠根據單一提示詞生成互動模擬,如近期社群媒體流行的「1隻大猩猩對戰100名人類」迷因。
X用戶“RameshR”(@rezmeram)還展示了該模型在不到一分鐘內生成的一款互動式俄羅斯方塊風格遊戲,並配有音效,他在帖子中寫道:“休閒遊戲行業已經完了!!”
這些正面的行業認可增強了DeepMind關於模型實際性能提升的說法,也可能進一步推動其在開發者平台中的廣泛應用。
單一提示即可產生完整應用程式
此次更新的亮點之一是:使用者可透過簡單提示產生完整的互動網頁應用程式或模擬程序,這完美契合DeepMind簡化原型設計與開發流程的願景。
Gemini應用程式內的示範顯示,使用者可以將視覺模式或主題提示直接轉換為可用程式碼,大幅降低設計導向開發團隊的技術門檻,為嘗試新想法的團隊提供高效工具。
儘管Google尚未公開Gemini 2.5 Pro的底層架構與內部改動,但其重點顯然是提供更快、更直覺的開發體驗。
透過強化程式碼產生能力與多模態輸入整合,Gemini 2.5 Pro不再是實驗型產品,而成為因應實際開發挑戰的強大工具。此次提前發布也表明,GoogleDeepMind有意在I/O大會前積極響應開發者需求,並持續保持發展勢頭。