Google狙擊OpenAI 集中火力猛攻AI智能體
在OpenAI宣布ChatGPT全面連接蘋果之際,Google發表新一代大模型Gemini 2.0,值得注意的是,Gemini 2.0專為AI智能體(AI Agent)而生。 Google執行長Sundar Pichai在公開信中表示:
「在過去一年中,我們一直在投資開發更具『代理性』的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,並在你的監督下為你執行任務。今天,我們很高興迎來新一代的模型——Gemini 2.0,它是我們迄今為止最強大的模型。能夠建立新的AI智能體,使我們更接近普遍AI助理的願景。
GoogleDeepMind CEO Demis Hassabis也表示,2025年將是AI智能體的時代,Gemini 2.0將是支撐我們基於智能體工作的最新一代模型。
目前Gemini 2.0版本尚未正式上線,Google表示已經提供給了一些開發者內測。第一時間上線的是比Gemini 1.5 Pro更強的Gemini 2.0 Flash實驗版,實驗版已在網頁端開放,Gemini用戶可透過PC端存取Gemini 2.0 Flash,行動裝置即將推出。
根據Google發布的基準測試結果,不論是在多模態的圖片、視頻能力上,還是編碼、數學等能力上,僅是Flash實驗版的Gemini 2.0表現幾乎全面超越Gemini 1.5 Pro,且響應速度提升了2倍。
Google集中火力猛攻AI智能體
透過Google的這次更新,我們已經可以窺見其AI佈局的冰川一角——一切為了智能體。
1.更強大的多模態能力:
Gemini 2.0 Flash實驗版除了支援影像、視訊和音訊等多模態輸入,也支援多模態輸出,例如原生生成的影像與文字結合,以及可操控的多語言文字轉語音(TTS)音訊。
2、更專業的AI搜尋:
Google在Gemini Advanced中推出了一項名為深度研究(Deep Research)的智能體新功能。該功能結合了Google的搜尋專長和Gemini的高級推理能力,可以圍繞一個複雜主題產生研究報告,相當於一個私人研究助手。
3.多款智能體更新、上線:
更新了基於Gemini 2.0構建的智能體Project Astra :Astra的新功能包括支援多語言混合對話;能夠在Gemini應用中直接調用Google Lens和地圖功能;記憶能力提升,具備最多10分鐘的會話內記憶,對話更連貫;借助新的串流處理技術和原生音訊理解能力,該智能體能夠以近於人類對話的延遲來理解語言。值得注意的是,Astra是Google為眼鏡計畫所做的前瞻計畫。 Google提到,正在將Project Astra移植到眼鏡等更多行動終端。
發布適用於瀏覽器的智能體Project Mariner(海員專案):此智能體能夠理解並推理瀏覽器螢幕上的信息,包括像素和網頁元素(如文字、程式碼和圖片),然後透過Chrome擴充程式來利用這些資訊幫你完成任務。
發布專為開發者打造的AI程式設計智能體Jules:Jules支援直接整合到GitHub工作流程中,使用者使用自然語言描述問題,就能直接產生可以合併到GitHub專案中的程式碼;
發布遊戲智能體:能夠即時解讀螢幕畫面,透過用戶遊戲螢幕上的動作給予下一步操作建議,或直接在你打遊戲的時候透過和你語音交流。
Google表示,明年年初,將Gemini 2.0擴展到更多旗下產品。先前推出的AI Overviews將整合Gemini 2.0,提升複雜問題處理能力,包括高階數學公式、多模態查詢和程式設計。本週已經進行有限測試,預計明年推廣,並擴展至更多國家和語言。