下一代Windows系統曝光:基於GPT-4V Agent跨應用調度代號UFO
下一代Windows作業系統提前曝光了??微軟首個為Windows而設的智能體(Agent) 亮相:基於GPT-4V,一句話就可以在多個應用中無縫切換,完成複雜任務。整個過程無需人為幹預,其執行成功率和效率是GPT-4的兩倍,GPT-3.5的四倍。例如,刪除PPT簡報上的所有備註。幾個簡單步驟就可完成。
還有像利用多個來源文本,例如word文檔、圖像文字內容,撰寫電子郵件。
網友表示:這才是Windows等級應有的創新能力
第一個Windows Agent來了
這樣一個智能體叫做UFO,全名“UI-Focused”,是一個專為Windows OS(作業系統)互動設計、面向使用者介面(UI)的智能體框架,可以在單一或多個應用程式中操作,由MSRA、微軟AI與應用研究團隊等共同打造。
使用者就可以透過自然語言指令,來操作App的使用者介面。
根據介紹,UFO是第一個專為Windows OS環境中的任務完成量身定制的UI Agent。
就拿刪除PPT上的所有註解為例。傳統方式需要一頁一頁手動刪除註解。如果PPT巨長無比,這個過程就會又久又無聊,讓人瞬間暴躁。
但UFO得到指令後,簡化了整個過程。
它先是提議用「刪除所有演示筆記」功能,這個功能因為按鈕位置藏得很深,經常被用戶忽略。
而後,UFO導航至“File”選項,對後台視圖進行存取;然後,再平滑地切換到“info”選單,點擊“檢查問題”按鈕,並選擇“檢查文件”,開始檢查文件中所有包含的註釋。
緊接著,UFO識別到選單地步的“刪除所有演示筆記”,向下滾動定位到其位置,啟動單擊功能。
考慮到誤刪的可能性,UFO這裡有一道保護功能,需要使用者再次確定是否真的要刪除所有註解。
用戶一旦確認,所有筆記就“
」的一下都沒有了~
如PowerPoint這樣,文章中對其它幾個場景進行了圖文並茂的展示。
例如讀一篇PDF:
設計PPT格式:
下載Docker拓展:
發條推文:
搜尋總結:
讀篇paper:
以及怎麼利用UFO在Word文件裡提取文字、描述圖像、撰寫然後發送電子郵件等。
研究團隊在9個常用的Windows應用程式上對UFO進行了測試,包括Outlook、Photos、PPT、Word等,涵蓋了Windows用戶的高頻使用場景,能夠測試工作、交流、編碼、閱讀、網頁瀏覽等目的。
對於每個應用程序,團隊設計了5個不同的請求,共45個;另外還設計了5個設計跨多個互動應用程式的請求。
也就是說,共產生了50個請求,每個應用程式至少有一個請求連結到另一個後續請求,提供全面評估UFO的互動模式。
在評估指標方面,則從成功度、步驟、完成率和保障率這幾個角度來評估UFO。
為了全面評估UFO的效能,團隊開發了名為WindowsBench的測試基準。
考慮到沒有現成的Windows Agent,團隊選擇GPT-3.5和GPT-4作為基座模型,並且指示它們提供一步一步的指導來完成使用者請求。
值得注意的是,UFO在WindowsBench上成功率達到了86%,成倍超過了GPT-4——因此UFO可以被定位為一個高效的Agent。
而UFO的完成率也是最好的,這顯示它有能力採取更精確的動作;此外,UFO完成任務的步驟也是最少的,安全度也是最高的。
最後,9個場景從4個角度在WindowsBench的詳細得分如下:
三個模組組成
既然如此,這樣一個作業系統層級的Agent,究竟是如何實現的呢?
首先,它理解使用者的自然語言要求,然後將其分解為一系列子任務。然後觀察使用者介面,並對其控制元素進行操作,以實現總體目標。
既然如此,又是如何實現的呢?
架構上看,UFO是個雙Agent框架,主要有三個模組:
應用智能體(AppAgent),選擇一個應用程式滿足使用者請求。
行動智能體(ActAgent),負責在所選應用中重複執行任務。
互動控制,無需人工幹預,全自動執行。
在收到用戶請求後,AppAgent會對需求進行分析。除此之外,還有這些資訊作為輸入:桌面截圖、App資訊、記憶以及範例。
其中,UFO為AppAgent提供了完整的桌面截圖和可用應用程式清單以供參考。
然後從目前啟動的應用程式中選擇一個合適的應用程序,並製定一個全局實現計劃,將其傳遞給ActAgent。
一旦找到合適的應用程序,App就會出現在桌面上。隨後ActAgent啟動操作。
在每個操作選擇之前,UFO都會擷取目前應用程式使用者介面視窗的螢幕截圖,並標註所有可用控制項。此外,UFO還記錄了每個控制項的相關訊息,供ActAgent觀察。
ActAgent的任務是選擇要操作的控件,然後透過控件互動模組選擇要在所選控件上執行的特定操作。
這項決定是基於ActAgent 的觀察結果、先前計劃和操作記憶做出的。
這個遞歸過程一直持續到使用者請求在所選應用程式中成功完成為止。至此,用戶請求的一個階段結束。
如果需要跨越多個應用程序,那麼在ActAgent 完成當前任務之後,ActAgent 將把任務委託給AppAgent,以便切換到不同的應用程序,從而啟動請求的第二階段。
使用者可以選擇提出新的請求,促使UFO 透過重複上述過程來處理新任務。
研究團隊依據日常滑鼠操作,也開發了自訂操作,例如點擊、選擇文字、捲動等,以此來完成對於控制項的操作。
主要有這些控制類型。
微軟全球資深副總裁、MSRA副院長領銜
最後介紹UFO的研究團隊,其中大多數都是華人。
通訊作者Chaoyun Zhang,是微軟DKI(Data、Knowledge、Intelligence,數據/知識/情報)*小組的高級研究員。
他於2020年,在愛丁堡大學獲得碩士和博士學位,研究興趣包括時間序列建模、時空資料探勘、因果推理以及雲端服務和 AIOps的可解釋機器學習。
Chaoyun Zhang也是華中科技大學校友,出國前在華中科技大學電子資訊與傳播學院取得學士學位。
作者Liqun Li,現為微軟DKI組首席研究員。
他先畢業於清華大學電腦科學與技術系,取得學士學位;而後在2012年獲得中國科學院軟體研究所博士學位。期間,Liqun Li曾作為訪問學者前往密西根州立大學。
作者Saravan Rajmohan,Miceosoft 365的AI及應用研究的合作夥伴總監。
他領導應用研究團隊與Microsoft的各個研究小組進行深入協作,將演算法研究與AI/ML技術和硬體創新結合
作者張冬梅,MSRA(微軟亞洲研究院)執行副院長,微軟傑出首席科學家。
她從2004年起加入MSRA,從事和領導DKI領域的研究工作,近幾年,團隊將研究擴展到商業智慧領域。
作者張祺,微軟全球資深副總裁。
此前,張祺曾任微軟(亞洲)網路工程院執行副院長,兼任微軟行動聯新網路服務有限公司董事長,負責微軟網路業務及人工智慧平台在亞洲的團隊。
同時,他也是微軟中國首位「全球傑出工程師」。
最後,簡單介紹多位作者的工作單位:MSRA的DKI組。
DKI是Data、Knowledge、Intelligence的簡寫。
該小組致力於AI、數據分析、數據互動、數據視覺化的研究,探索全新的數據分析、展示、互動技術,讓數據和數據中的發現故事被高效地理解、廣泛地傳播。
團隊與微軟產品如Excel,PowerPoint等深度合作,常年在各領域的頂會和期刊發表論文。
來源:量子位