電腦成精了:OpenAI的AI代理Operator 能像人類一樣瀏覽網頁
美國新創公司OpenAI週四突然舉行直播活動,發布市場期待已久的首款AI代理工具Operator(意為操作員),能夠代理用戶執行基於網頁的操作。言簡意賅的解釋,就是Operator能夠像人類一樣使用網頁瀏覽器。
與「問一句、答一句」的聊天機器人不同,AI代理能夠在人類有限監督的情況下按照設定完成任務,也被普遍視為AI生產力的下一個里程碑。在OpenAI通往通用人工智慧(AGI)的五個步驟中,AI代理是繼聊天機器人、推理機器人之後的第三步,也是全新的一步。
山姆·奧爾特曼介紹稱,從週四開始,美國的ChatGPT Pro用戶(一個月交200美元)將能使用「研究預覽版」的Operator。未來將拓展到更多區域的Pro用戶,幾個月後ChatGPT Plus用戶也能使用。同時在未來幾週、幾個月裡,還會發布更多的AI代理商。
什麼是Operator?
Operator由一個名為CUA(電腦使用代理)的新模型驅動,結合了GPT-4o的視覺能力,以及透過強化學習實現的高階推理。Operator能夠「看見」網頁(截圖),並使用滑鼠和鍵盤允許的所有操作與網頁進行互動。在操作中如果碰到困難,模型會調用推理能力進行自我糾正,若依然無法解決問題則會把控制權交還給人類。
要理解這種新事物,還得靠新鮮生動的案例。
Operator的介面與聊天機器人ChatGPT類似,最大的差異是呼叫「AI代理」完成使用者指示的事情。
在演示案例中,Operator被要求預訂某家飯店。使用者只需在對話方塊中輸入“給我訂一個XX飯店今晚19點的桌子”,然後AI代理就會自己打開網頁,進入預訂網站,搜尋餐廳並完成預訂。
如果用戶所需的時段已經被訂完,AI會詢問“19點的桌子訂完了,19點45分的桌子還有,要不要訂?”
在另一個案例中,用戶上傳了一張寫有「雞蛋、菠菜、蘑菇」等雜貨的購物清單,要求Operator去買菜網站上進行操作。隨後AI就會打開瀏覽器,順著清單逐一搜尋並加入購物車。
完成任務後,Operator會告訴使用者總共需要多少錢,以及騎士送達的時間,然後將瀏覽器的控制權交還給人類。
OpenAI也提醒使用者,雖然Operator已經是市面上最強的AI代理,但與人類相比依然差得很遠。例如在使用瀏覽器的基準測試中,OpenAI CUA模型能拿到58.1%的評分,但人類的程度可以達到78%。所以這項新技術仍有可能犯錯,但在未來幾個月持續改善。