Google版賈維斯即將問世:最強Gemini 2.0加持AI自主操控電腦時代來臨
科幻中的賈維斯,已經離我們不遠了。 Claude 3.5接管人類電腦掀起了人機互動全新範式,爆料稱Google同類Project Jarvis預計年底亮相。 AI操控電腦已成為微軟、蘋果等巨頭,下一個發力的戰場。 AI接手人類電腦,就是下一個未來!

幾天前,Anthropic向所有人展示了,Claude 3.5自主看螢幕操作遊標完成複雜任務,足以驚掉下巴。
剛剛,Information獨家爆料稱,Google正開發同類新專案“Project Jarvis”,能將Chrome網頁任務自動化。
Google「賈維斯」將由未來版Gemini 2.0驅動,預計在12月相。

取這個名字,是為了向鋼鐵人中的JARVIS致敬。

無獨有偶,微軟團隊悄悄放出的OmniParser,也在篤定AI智能體操控螢幕的未來。

論文網址:https://arxiv.org/pdf/2408.00203
OmniParser主要是一個螢幕解析的工具,可以將截圖轉換為結構化數據,幫助AI精準理解使用者意圖。

不僅如此,OpenAI內部已有了AI智能體雛形,可以操控電腦完成線上訂餐、自動查詢解決程式設計難題等任務。
包括蘋果在內,預計明年發布跨多個APP螢幕識別能力。最新迭代的Ferret-UI 2,就是通用UI模型。
可見,「Computer use」已成為科技大廠們,重點發力的下一個戰場。

Google「賈維斯」年底出世,最強Gemini 2加持
代號為Jarvis Project項目,本質上是一個大動作模型(LAM),也是Google一直以來在做的大模型方向。
它專門針對GoogleChrome瀏覽器,進行了最佳化。
具體操作原理,與Claude 3.5類似,透過截圖、解析螢幕內容,然後自動點擊按鈕,或輸入文本,最終幫助人們完成基於網頁的日常任務。

不論是收集研究資訊、購物,或是預定航班等任務,Google「賈維斯」皆可實現。
不過,它在執行不同操作時,中間會有幾秒鐘的思考時間。
因此,在終端設備中運作還不太現實,仍然需要在雲端上操作。
5月的GoogleI/O大會上,GoogleCEO劈柴曾經展示了,Gemini和Chrome如何協同工作的樣子。

如前所述,Google「賈維斯」將由Gemini 2.0加持,也意味著年底我們可以看到進步版Gemini模型。

儘管Sam Altman否認了Orion模型的發布,但外媒猜測,預計年底OpenAI也將放出新核彈
微軟OmniParser也下場了
緊接著Claude「電腦使用」發布之後,微軟就開源了AI框架OmniParser。

假設你想要去布萊斯峽谷國家公園,不知是否需要訂票入園,這時OmniParser可以帶你去查詢。
它會解析螢幕後,自動點擊“permits”按鈕,然後再截圖找到“布萊斯峽谷國家公園”,最後就可以完成用戶任務。

可見,想要把類似GPT-4V的多模態大模型應用於作業系統上,模型還需要具備強大的螢幕解析能力,主要包含兩方面:
1、準確地辨識使用者介面中的可互動圖示;
2、理解螢幕截圖中各種元素的語義,並準確將預期動作與螢幕上的相應區域關聯起來。
基于上述思路,微软最新提出的OmniParser模型,可以将用户界面截图解析为结构化元素,显著增强了GPT-4V在对应界面区域预测行动的能力。
方法
一個複雜的操作任務通常可以分解成多個子行動步驟,在執行過程中,模型需要具備以下能力:
1.瞭解目前步驟的使用者介面,即分析螢幕內容中大體上在展示什麼、偵測到的圖示功能是什麼等;
2.預測目前螢幕上的下一個動作,來幫助完成整個任務。

研究人員發現,將這兩個目標分解開,例如在螢幕解析階段只提取語義資訊等,可以減輕GPT-4V的負擔;模型也能夠從解析後的螢幕中利用更多信息,動作預測準確率更高。

因此,OmniParser結合了微調後的可互動圖示偵測模型、微調後的圖示描述模型以及光學字元辨識(OCR)模組的輸出,可以產生使用者介面的結構化表示,類似於文件物件模型(DOM),以及一個疊加潛在可交互元素邊界框的螢幕截圖。
可交互區域檢測(Interactable Region Detection)
從使用者介面畫面中辨識出「可互動區域」非常關鍵,也是預測下一步行動來完成使用者任務的基礎。
研究人員並沒有直接提示GPT-4V來預測螢幕中操作範圍的xy座標值,而是遵循先前的工作,使用標記集合方法在使用者介面截圖上疊加可交互圖示的邊界框,並要求GPT-4V生成要執行動作的邊界框ID。
為了提高準確性,研究人員建構了一個用於可交互圖標檢測的微調資料集,包含6.7萬個不重複的螢幕截圖,其中所有圖像都使用從DOM樹派生的可交互圖標的邊界框進行標記。
為了建構資料集,研究人員首先從網路上公開可用的網址中提取了10萬個均勻樣本,並從每個URL的DOM樹中收集網頁的可互動區域的邊界框。

除了可交互區域檢測,還引有一個OCR模組來提取文字的邊界框。
接著合併OCR偵測模組和圖示偵測模組的邊界框,同時移除重疊度很高的框(閾值為重疊超過90%)。
對於每個邊界框,使用簡單的演算法在邊框旁邊標記一個ID,以最小化數位標籤和其他邊界框之間的重疊。

整合功能的局部語意(Incorporating Local Semantics of Functionality)
研究人員發現,在許多情況下,如果僅輸入疊加了邊界框和相關ID的使用者介面截圖可能會對GPT-4V造成誤導,這種限制可能源於GPT-4V無法「同時」執行「識別圖標的語意資訊」和「預測特定圖示框上的下一個動作」的複合任務。
為了解決這個問題,研究人員將功能局部語義整合到提示中,即對於可交互區域檢測模型檢測到的圖標,使用一個微調過的模型為圖標生成功能描述;對於文本框,使用檢測到的文本及其標籤。

然而,目前還沒有專門為使用者介面圖示描述而訓練的公共模型,但這類模型非常適合目標場景,即能夠為使用者介面截圖提供快速且準確的局部語意。
研究人員使用GPT-4o建構了一個包含7000對「圖標-描述」的資料集,並在資料集上微調了一個BLIP-v2模型,結果也證明了該模型在描述常見應用圖示時更加可靠。

實驗評估
SeeAssign任務
為了測試GPT-4V模型正確預測邊界框描述所對應的標籤ID的能力,研究人員手工製作了一個名為SeeAssign的資料集,其中包含了來自3個不同平台(行動裝置、桌面電腦和網路瀏覽器)的112個任務樣本,每個樣本都包括一段簡潔的任務描述和一個螢幕截圖。
根據難度,任務分為三類:簡單(少於10個邊界框)、中等(10-40個邊界框)和困難(超過40個邊界框)。
GPT-4V不帶局部語意的提示:
這是一個 UI 螢幕截圖,上面覆蓋了邊界框和相應的標籤 ID,您的任務是 {task}。您應該對哪個圖示框標籤進行操作?做一個簡單的分析,然後將你的答案寫成”’ Box with label ID: [xx]”’ 的格式
帶局部語意的提示:
這是一個 UI 螢幕截圖,上面覆蓋了邊界框和對應的標籤 ID,這是圖示/文字方塊描述的清單:{parsed_local_semantics}。你的任務是{task}。您應該對哪個邊界框標籤進行操作?簡單分析一下,然後以「”’Box with label ID: [xx]”’的格式填寫你的答案
從結果來看,GPT-4V經常錯誤地將數字ID分配給表格,特別是當螢幕上有很多邊界框時;透過添加包括框內文字和偵測到的圖示的簡短描述在內的局部語義,GPT -4V正確分配圖示的能力從0.705提高到0.938

ScreenSpot評估
ScreenSpot資料集是一個基準測試資料集,包含了來自行動裝置(iOS、Android)、桌上型電腦(macOS、Windows)和網路平台的600多個介面截圖,其中任務指令是人工創建的,以確保每個指令都對應使用者介面螢幕上的一個可操作元素。

结果显示,在三个不同的平台上,OmniParser显著提高了GPT-4V的基线性能,甚至超过了专门在图形用户界面(GUI)数据集上微调过的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。
也可以注意到,加入局部語意(表中的OmniParser w. LS)可以進一步提高整體效能,即在文字格式中加入使用者介面截圖的局部語意(OCR文字和圖示邊界框的描述),可以幫助GPT- 4V準確辨識要操作的正確元素。
Mind2Web評估
測試集中有3種不同類型的任務:跨領域、跨網站和跨任務,可以測試OmniParser在網頁導航場景中的輔助能力。

結果顯示,即使沒有使用網頁的HTML信息,OmniParser也能大幅提高智能體的性能,甚至超過了一些使用HTML信息的模型,表明通過解析屏幕截圖提供的語義信息非常有用,特別是在處理跨網站和跨領域任務時,模型的表現特別出色。
AITW評估
研究人員也在行動裝置導航基準測試AITW上對OmniParser進行了評估,測試包含3萬條指令和71.5萬條軌跡。

结果显示,用自己微调的模型替换了原有的IconNet模型,并加入了图标功能的局部语义信息后,OmniParser在大多数子类别中的表现都有了显著提升,整体得分也比之前最好的GPT-4V智能体提高了4.7%。
這表明了,模型能夠很好地理解和處理行動裝置上的使用者介面,即使在沒有額外訓練資料的情況下也能表現出色。
參考資料:
https://microsoft.github.io/OmniParser