電腦成精了：OpenAI的AI代理Operator 能像人類一樣瀏覽網頁

2025-01-24 Comments 0 Comment

美國新創公司OpenAI週四突然舉行直播活動，發布市場期待已久的首款AI代理工具Operator（意為操作員），能夠代理用戶執行基於網頁的操作。言簡意賅的解釋，就是Operator能夠像人類一樣使用網頁瀏覽器。

與「問一句、答一句」的聊天機器人不同，AI代理能夠在人類有限監督的情況下按照設定完成任務，也被普遍視為AI生產力的下一個里程碑。在OpenAI通往通用人工智慧（AGI）的五個步驟中，AI代理是繼聊天機器人、推理機器人之後的第三步，也是全新的一步。

山姆·奧爾特曼介紹稱，從週四開始，美國的ChatGPT Pro用戶（一個月交200美元）將能使用「研究預覽版」的Operator。未來將拓展到更多區域的Pro用戶，幾個月後ChatGPT Plus用戶也能使用。同時在未來幾週、幾個月裡，還會發布更多的AI代理商。

什麼是Operator？

Operator由一個名為CUA（電腦使用代理）的新模型驅動，結合了GPT-4o的視覺能力，以及透過強化學習實現的高階推理。Operator能夠「看見」網頁（截圖），並使用滑鼠和鍵盤允許的所有操作與網頁進行互動。在操作中如果碰到困難，模型會調用推理能力進行自我糾正，若依然無法解決問題則會把控制權交還給人類。