微軟發布Windows Agent Arena 為生成式AI代理程式提供基準測試
使用生成式人工智慧和大型語言模型來自動化和簡化使用PC 的人員的任務的情況持續增長。不過,人們也需要了解人工智慧在完成任務的工作表現。本周微軟研究院宣布,它已開發出專門用於在Windows PC 上測試人工智慧代理的基準。
微軟在GitHub 頁面上公佈的這一基準名為Windows Agent Arena。該框架旨在測試人工智慧代理與人類通常使用的Windows 應用程式的互動能力和速度。在Windows Agent Arena 中與AI 代理程式進行測試的應用程式清單包括Microsoft Edge 和Google Chrome 瀏覽器等網頁瀏覽器、檔案總管設定等作業系統功能、Visual Studio Code 等編碼應用程式、記事本、時鐘和畫圖等簡單的預裝Windows 應用程序,甚至包括使用VLC 播放器觀看影片。
微軟表示:
我們對OSWorld 框架進行了調整,創建了150 多個不同的Windows 任務,跨越了需要代理在規劃、螢幕理解和工具使用方面具備能力的代表性領域。我們的基準還具有可擴展性,可在Azure 中進行無縫並行化,在短短20 分鐘內即可完成完整的基準評估。
微軟研究院也創建了自己的多模式代理,名為Navi,並在Windows Agent Arena 基準測試中進行了測試。測試要求它在某些文字提示下執行任務,例如:”你能把我正在瀏覽的網站轉換成PDF 文件並放到我的主畫面上嗎?”測試發現,Navi 的平均成功率為19.5%,與人類74.5% 的成功率相比仍然很低。
有了Windows Agent Arena 這樣的基準,對創建人工智慧代理來說將是一個巨大的發展,這樣它們就能得到改進,並且表現得更接近人類的水平。
微軟團隊也與卡內基美隆大學和哥倫比亞大學的研究人員合作完成了這個計畫。您可以在GitHub 上查看論文全文以及該基準的程式碼。