亞馬遜推出可控制網頁瀏覽器的AI 代理Nova Act
亞馬遜週一發布了Nova Act,這是一款通用AI 代理,可以控製網頁瀏覽器並獨立執行一些簡單的操作。除了新的代理AI 模型外,亞馬遜還發布了Nova Act SDK,這是一個工具包,允許開發人員使用Nova Act 建立代理原型。

Nova Act 由亞馬遜新近在舊金山開設的AGI 實驗室開發,也將為該公司即將推出的Alexa+ 升級版提供關鍵功能,Alexa+ 是亞馬遜廣受歡迎的語音助理的生成式AI 增強版。不過,從今天開始提供的Nova Act 版本略顯遜色。亞馬遜稱其為研究預覽版。
開發人員可以透過新網站nova.amazon.com存取Nova Act 工具包,該網站也是亞馬遜各種Nova 基礎模型的展示。
Nova Act 是亞馬遜試圖利用自己的通用人工智慧代理技術與OpenAI 的Operator和Anthropic 的Computer Use競爭的嘗試。幾家領先的科技公司認為,能夠為用戶導航網路的人工智慧代理將使當今的人工智慧聊天機器人更加有用。
亞馬遜可能不是第一個開發這種代理技術的公司,但透過Alexa+,它的覆蓋範圍可能是最廣泛的。
亞馬遜表示,使用Nova Act SDK 進行開發的開發人員應該能夠代表用戶自動執行基本操作,例如從Sweetgreen 訂購沙拉或預訂晚餐。透過Nova Act 工具包,開發人員可以整合工具,讓AI 代理瀏覽網頁、填寫表格或在日曆上選擇日期。
亞馬遜聲稱,Nova Act 在公司內部的幾項測試中表現優於OpenAI 和Anthropic 的代理商。例如,在衡量AI 代理程式如何與螢幕上的文字互動的ScreenSpot Web Text 中,Nova Act 得分為94%,優於OpenAI 的CUA(得分為88%)和Anthropic 的Claude 3.7 Sonnet(90%)。
不過,亞馬遜並沒有使用更常見的代理評估(例如WebVoyager)來對Nova Act 進行基準測試。
Nova Act 是亞馬遜上述AGI 實驗室推出的首款公開產品,該計畫由前OpenAI 研究員David Luan 和Pieter Abbeel 共同領導。兩人之前都創立過自己的新創公司——Luan 創辦了Adept,而Abbeel 共同創辦了Covariant——去年亞馬遜聘請他們來領導其AI 代理工作。
雖然AGI 實驗室開發能夠訂購SweetGreen 的AI 代理似乎有些奇怪,但Luan 認為代理是創建超級智慧AI 系統的關鍵一步。 Luan 將AGI 定義為「一種能夠幫助您完成人類在電腦上所做的一切的AI 系統」。
Luan 表示,他的團隊設計了Nova Act SDK,以可靠地自動執行簡短的任務,並為開發人員提供工具,讓他們能夠精確定義何時需要人工幹預代理工作流程。他希望,這將使開發人員能夠創建更可靠的代理應用程序,儘管不一定是完全自主的應用程式。
亞馬遜在競爭激烈的市場中推出了首款通用人工智慧代理,但這是該公司寄予厚望的關鍵技術。 Nova Act 的早期測試可以讓人們一窺拖延已久的Alexa+ 的一些功能,這對亞馬遜的人工智慧努力來說是一個成敗攸關的時刻。
OpenAI、Google和Anthropic 的早期人工智慧代理的主要問題是它們在不同領域的可靠性。在TechCrunch 的測試中,這些系統速度很慢,難以長時間獨立運行,而且容易犯下人類不會犯的錯誤。我們很快就會看到亞馬遜是否破解了密碼——或者它的代理商是否也存在困擾競爭對手的同樣缺陷。