OpenAI發布首個AI智能體:自動幫你訂餐購物使用前需要知道這些細節
OpenAI熱炒已久的智能體,剛正式發布!官方介紹:Operator是我們的首批智能體之一。這些AI能夠獨立為你完成工作-只需給它一個任務,它就會執行。 be like,給它一個購物清單,Operator就能完全自主地幫你買好東西。
可以看到操作老哥的雙手已經離開鍵盤,螢幕上的所有操作都是Operator自己完成。
還能讓它來預約餐廳:
這邊奧特曼直播剛結束,OpenAI總裁Brockman就迫不及待地宣布:
2025年是智能體之年。
而這次,Operator官宣即上線──只不過,暫時只面向Pro用戶,對,就是一個月200刀(約合人民幣1458元)的那個大會員。
看罷直播,網友們還是非常興奮的,直呼「瘋狂星期四」。
但嘛…
嗯,Operator很香,但要是開源就更棒了,DeepSeek、Meta快捲起來(doge)。
玩瀏覽器,無需人類輔助
口說無憑,咱們還是先透過官方Demo,來看看Operator到底有多「獨立自主」。
它幾乎可以使用任何網站,無需人類的操作輔助。
例如從Allrecipes找到一份蛤蜊扁麵條的食譜,然後把所有的食材都放到我instacart的購物車裡?
它操作這一切的邏輯和人類一樣,看到了哪些圖片、該點擊哪些按鈕。
這和其他使用API或基於程式介面的Agent不同,它是基於文字的思維鏈進行推理。
確認菜單後,去哪一家店下單買菜呢?
人類進一步給予指令,使用Gus’s,然後Operator就會到對應的網站開始下單。
遇到登入、付款等操作時,Operator會將操作權交還給使用者。
在用戶實測中,有部落客發現如果Operator被Reddit牆了,它還會自己在搜尋時就加入「Reddit」關鍵字以找到相關貼文。
使用者也可以透過新增自訂指令,獲得個人化體驗。例如設定訂機票時的首選航司。
Operator允許用戶保存提示,以便在主頁上快速訪問,非常適合重複任務,例如在購物網站上補貨。
Operator也能同時執行多個任務,就像是打開多個網頁一樣,例如讓它在Etsy上訂購個人化的搪瓷馬克杯,同時在Hipcamp上預訂露營地。
Operator的底層使用了一個全新的模型Computer-Using-Agent(CUA)。
透過將GPT-4o的視覺能力和高階推理強化學習結合,CUA可以進行GUI互動。
Operator可以看到網頁介面的內容,使用滑鼠、鍵盤允許的所有操作。由此它可以自動操作,而無需自訂的API整合。
如果遇到問題或錯誤,Operator可以利用推理能力自我糾錯。並在它卡住需要幫助時,將控制權交還給用戶。
CUA在WebArena和WebVoyager兩個基準測試中都取得了SOTA。
目前,美區的Pro會員已經可以透過operator.chatgpt.com來使用Operator。 Plus、Team、Enterprise等付費用戶和其他地區的胖友們,還得再等等,但OpenAI承諾未來會將這些功能整合到ChatGPT中。
OpenAI邁入“Level 3”
2024年7月,OpenAI發布了「從AI到AGI的五步驟過程」:
Level 1:Chatbots,AI可以以對話的方式與人互動。
Level 2:Reasoners,AI科技解決人類層級的問題。
Level 3:Agents,AI可以作為系統執行一些行動任務。
Level 4:Innovators,AI可以開發創新性的AI。
Level 5:Organizations,AI可以完成一個組織完成的工作。
在當時的定義與規劃中,OpenAI表示自己還只處於Level 1階段,正在靠近Level 2。
而現在,隨著Operator的發布,奧特曼宣布:
這是我們進入Level 3的開始。
值得注意的是,就像開頭提到,OpenAI悄悄畫了個重點:Operator還只是「首批」而非唯一智能體。
在直播中,奧特曼也預告了:
我們還將在未來幾週和幾個月內推出更多智能體。
還有一件事
就在OpenAI今天這場直播前,還有一個小小的花絮。
Operator發布2小時前,OpenAI發了一則推文,表示修復了ChatGPT和API錯誤率高的問題。
又虛晃了網友們一槍(doge)。
另一個好消息是,奧特曼還預告,ChatGPT免費版就能用o3-mini。