Google深夜狙擊OpenAI:新Agent功能可以自行開啟瀏覽器查資料
2024 年走到年底,似乎AI 大廠們集體又決定搞點事情了。在OpenAI 宣布連發12 天更新後,Google 選擇12 月11 日深夜(在OpenAI 發布更新之前),發布新模型Gemini 2.0。在多次發布被OpenAI 精準狙擊後,Google 今夜扳回一局,發布了Gemini 2.0,直指Agent 使用,一個OpenAI 至今沒有明確公開佈局的領域——之前有消息稱,OpenAI 將在明年推出使用電腦的Agent。

Agent 功能,也稱為智能體功能,通常指的是AI 能夠感知環境、執行任務並在一定程度上獨立做出決策的能力,也就是能更自動化完成任務的功能。
這次 Google 似乎賭對了。 OpenAI 凌晨兩點的發布,主要宣布了和Apple Intelligence 的合作,一個普遍被期待能與 Agent 能力強相關的合作。不過今夜最終的發布,主要仍集中在文字生成和視覺智慧方面,並沒有Agent 相關的內容。
而Google,則一次發布了四個Agent 相關的功能:
Project Astra,能夠在Gemini 應用程式中直接呼叫Google Lens 和地圖功能幫使用者解決問題;
Project Mariner(海員專案),Chrome 瀏覽器的實驗性功能,可透過提示詞直接幫使用者瀏覽網頁做任務;
Jules,可以嵌入GitHub 的程式設計Agent,使用自然語言描述問題,就能直接產生可以合併到GitHub 專案中的程式碼;
遊戲Agent,能夠即時解讀螢幕畫面,直接在你打遊戲的時候透過和你語音交流,給你AI 打法提示。
雖然這次Google 發布的功能仍屬於期貨範疇,但仍然十分令人興奮。我們似乎已經可以洞見Agent 真正到來的時代,人類生活的一角了。
01
炸裂新Agent 功能:自己查資料、寫程式碼,教你玩遊戲
Google 的新功能建立在新模型Gemini 2.0 能力之上。
和大部分大模型選擇的路線不一樣,Google 最早就選擇了使用原生多模態的的方式訓練模型——OpenAI 到了GPT-4o 模型才變成原生多模態的模型。
原生多模態模型,是在訓練階段,就將圖像、文字、語音甚至視訊等多種編碼,統一輸入給一個模型來學習。
這樣,模型可以在理解了一個「事物」後,更靈活地利用進行不同模態的生成。
此次Gemini 2.0,進一步升級了原生多模態能力。模型目前直接擁有了原生的影像生成能力、音訊輸出能力和原生的工具應用能力。
原生的工具應用能力就和Agent 的能力高度相關。 Google 介紹,除此之外,新體驗還來自於多模態推理、長上下文理解、複雜指令遵循和規劃、組合函數呼叫、本地工具使用和降低延遲等方向的改進。
看看Google 提出的新功能示範:
Project Mariner 是這個系列中,筆者看起來最驚訝的示範。
主要原因可能是因為相對於其他功能,Google 的Chrome 瀏覽器是筆者每天都要使用的工具,也是對工作效率影響最高的工具。而Google 的這項試驗性功能,看起來也不需要對瀏覽器進行過多的額外配置──只需要用到擴充功能。
Google 很懂地選了一個生產力場景,讓Chrome 打開一個表格(演示裡裡用的是Google Docs,不知道這與最終的成功識別是不是有相關性)。
表格裡有幾個公司的名字。示範者打開Chrome 的這項試驗功能,讓Chrome 自己記住這幾個公司名字,到網路上找這些公司的信箱。 (同樣的,查找使用的是Google 搜索,不知道是不是與最後的演示成功相關。)
瀏覽器自己打開了網頁,自己點開每個公司的官網,在找到郵箱地址後,自動記住郵箱地址,關掉網頁開始查找下一個公司的郵箱地址。
全程,使用者可以在右邊欄輸入提示字的位置,看到模型目前在如何思考,隨時停止自動操作。同時模型只會在前台運行,不會在使用者看不到的標籤頁中運行。
雖然前台運行似乎對使用者的時間是一種消耗,但同時也保證了安全性。在這個案例中,也確實提升了生產效率──挨個查找信箱確實是一件非常沒有創意的工作。
Jules,則讓自然語言寫程式似乎更近了一步。
在演示中,使用者輸入了一段非常詳細的程式設計問題的提示詞,包括在哪個文件中遇到什麼問題,希望做怎樣的修改。 (Google 提到Jules 可以直接嵌入GitHub 。)
Jules 對問題進行分析,給出了一個三步驟的編程解決方案,當用戶點擊同意後,模型開始自動編程,生成代碼文件,這些代碼可以一鍵被合併至用戶原有的代碼中。
遊戲Agent,則是看起來最有趣的示範。
Google 刻意提到,Gemini 2.0 可以理解Android 手機的螢幕分享和使用者的語音,直接做到簡報中的內容,不需要額外的後訓練。
在演示中,用戶分享正在玩的手機屏,並用語音和Agent 溝通,遊戲Agent 直接給出了接下來的最佳策略。
Google 表示目前正在和《部落衝突》、《海島奇兵》等遊戲做合作,幫助Agent 理解遊戲規則。同時Agent 也會自己即時上網查找,來理解遊戲規則給予最好的策略。
這個功能也可以說很爆炸了。對於純策略型遊戲,這個外掛可有點太厲害了──隨著AI 的進展,人腦對策略的理解恐怕沒有辦法和AI 抗衡。或者說,或許只有最頂尖的大腦可以和AI 抗衡。
Gemini2.0 目前並未對全部使用者開放,Google 表示目前正在將2.0 開放給開發者以及受信任的測試人員。這意味著以上的Agent 功能,到用戶真正能夠使用,仍然有一段時間。不過此次演示仍然令人興奮。
未來Gemini 2.0 上線,Google 大概率也不會首發上述的Agent 功能,而是先將其融入Gemini 和搜尋功能。
Google 之前已經在探索將AI 引入其搜尋功能中。 10 月,Google 曾經宣布,其搜尋中的AI 概述功能每月獲得了10 億用戶的使用。未來 Google 計畫將Gemini 2.0 的高階推理能力引入AI 概述,以回應更複雜的議題和多步驟問題,包括高階數學方程式、多模態查詢和編碼。
此外,除了探索虛擬世界的智能體能力外,Google 還打算將Gemini 2.0 的空間推理能力應用於機器人領域,嘗試讓Agent 在現實世界中提供協助。
02
Gemini Flash 常規更新
那麼用戶實際上能夠馬上使用的模型是什麼?
答案是Gemini 2.0 Flash。
作為Google 大號模型蒸餾而來的小號模型,Gemini 2.0 Flash(對話最佳化版本)將成為Google Gemini 中的預設使用模型。
Google 還推出了一項名為「深度研究」的新功能,該功能利用高級推理和長上下文能力作為研究助手,可以探索複雜主題並編制報告,今天在Gemini 高級版中可用。
Gemini 2.0 Flash 的能力較上一代有明顯提升,相當於上一代車型的Pro 版本的能力。

同時作為2.0 模型家族的一員,Gemini 2.0 Flash 也支援支援圖片、視訊和音訊等多模態輸入,2.0 Flash 現在還可以支援多模態輸出,例如可以直接產生影像與文字混合的內容,以及原生產生可控制的多語言文字轉語音(TTS) 音訊。它還可以原生呼叫 Google Search、程式碼執行以及第三方使用者定義的函數等工具。
03
Project Astra:為Google Glasses 準備的模型,擁有無限記憶?
Google 此次也重點介紹了Project Astra,為其推出了以下改進:
·更流暢的對話:Project Astra 現在可以在多種語言和混合語言之間進行對話,並且能夠更好地理解不同口音和生僻單字。
·新工具的使用:借助Gemini 2.0,Project Astra 可以使用Google Search、Google Lens 和Google Maps,從而在日常生活中更好地發揮助手作用。
·更強的記憶力:我們增強了Project Astra 的記憶能力,同時確保你可以掌控對話。現在,它可以記住長達10 分鐘的會話內容,並且可以回憶起過去與它進行的更多對話,以便為您提供更好的個人化服務。
·更低的延遲:借助新的串流技術和原生音訊理解能力,該智能體能夠以近於人類對話的延遲來理解語言。
Google Astra 是Google 為了眼鏡專案所做的前瞻專案。
從Meta 和Ray-ban 的合作眼鏡開始,國內外的不少公司,已經又在重新探索眼鏡作為新一代智慧硬體的潛力。
這次 Google 重大更新之一,是記憶能力。在外網訪談中,DeepMind 的CEO Demis Hassabis 表示,在Gemini 1.5 時代,內部測試中,已經將其上下文視窗擴展到了1,000 萬個token 以上。目前已經模型幾乎可以做到無限記憶。
但是代價就是速度。記憶越長,搜尋相關記憶的成本越高,速度越低。不過Demis Hassabis 認為,在接下來相當短的時間內,我們將真正擁有無限長的脈絡。
而這對 Google 真正想做的助理而言是極為重要的。 Demis Hassabis 形容未來世界:「你在電腦上使用這個助手,然後你走出家門,戴上眼鏡,或使用手機,它一直都在。它能夠記住會話以及你想要做什麼,真正個性化。我們人類無法記住所有事情,而AIvu u會記住所有事情,來給你靈感和新的規劃。
04
Agent 時代已來?
從去年開始,就陸續有人指出Agent 是AI 發展的未來。
不過,在過去一年中,Agent 這個字的使用相對比較沉寂,甚至有時候被偷換概念當成AI 應用來使用。
但在今年年末,我們終於開始看到了相對可喜的進展。
首先是Anthropic,推出電腦使用的Agent 模式。
國內的智譜AI,也推出了一個手機Agent 替用戶操作微信等App 的展示影片。
明年的OpenAI 與蘋果合作的Apple Intelligence,目前仍不確定全貌。很多人期待它會讓許多用戶第一次在手機上體會到簡單的Agent 功能到底能如何幫助我們提升生產力。
而現在我們又看到Google 推出的瀏覽器Agent 和安卓手機上的Agent 使用示範。
Agent 技術仍面臨諸多挑戰。人們會擔憂誤操作可能帶來的安全隱患,會擔心隱私,會擔心一系列風險。
但同時,對於一般使用者而言,Agent 才是最具「AI 感」的技術。全自動的任務完成,像魔法一般,不需要任何技術背景,直接就能提升工作效率和使用體驗。
Agent 能力的提升,也為一個新的智慧硬體真正進入人們生活打下了基礎——只有發出語音指令,眼鏡能直接自動完成部分任務的時候,許多任務才會逐漸從手機轉移至新的智慧硬體終端。
或許真的如Google AI Studio 的產品負責人Logan Kilpatrick 今天早些時候所言:未來,是Agent 的時代。