Google瘋狂復仇:終極殺器硬剛GPT-4o,Gemini顛覆搜索,影片AI震破Sora
昨天被OpenAI提前截胡的Google,今天不甘示弱開啟反擊!大殺器Project Astra效果不輸GPT-4o,文生視頻模型Veo硬剛Sora,用AI徹底顛覆Google搜索,Gemini 1.5 Pro達到200萬token上下文…Google轟出一連串武器,對OpenAI貼臉開大。
GoogleI/O 2024如期來了,眼花撩亂地發布了一堆更新。跟OpenAI半小時的’小而美’發布會相比,Google顯然準備得更加充分,當然,時間也相當之長…
準備好,Google要開始轟炸了。
首先,Gemini 1.5 Pro,上下文長度將達到驚人的200萬token。
然後,面對昨天OpenAI GPT-4o的挑釁,Google直接甩出大殺器Project Astra,視覺辨識與語音互動效果,跟GPT-4o不相上下。
接著,Google祭出文生影片模型Veo硬剛Sora,效果酷炫,長度超過1分鐘,打破Sora紀錄。
最後來了一個重磅消息:Google搜尋將被Gemini重塑,形態從此徹底改變!我們不再需要自己點進搜尋結果,而是由多步驟推理的AI Overview來代辦一切。
發表會結束後,劈柴甚至還用Gemini算了一下,整個發表會共提了121次AI。
Gemini時代,來了
CEO劈柴上來就無視了GPT和Llama的存在,這樣總結道:『我們完全處於Gemini時代’。
並且給予數據:如今全世界使用Gemini的開發者,一共有150萬人。
萬眾矚目的Gemini更新如期而至。
Gemini 1.5 Pro最強特性之一,就是超長的上下文窗口,達到了100萬tokens的級別,超過了目前所有的大語言模型,而且開放給個人用戶使用。
今天,劈柴宣布:它的上下文token數將會達到2000K(200萬)!相較之下,GPT-4 Turbo只有128K,Claude 3也只有200K。
而這也意味著──你可以給模型輸入2小時影片、22小時音訊、超過6萬行程式碼或140萬多個單字。
這個上下文長度,已經超過了目前所有大模型。
但是,這並不是終點,Google的目標是──無限長上下文,不過,這就是後話了。
用籃球講解牛頓運動定律
在這樣的Gemini加持下,我們可以實現許多迅捷的功能。
例如,身為父母需要了解孩子在學校的情況,就可以在Gmail中要求Gemini辨識所有關於學校的電子郵件,然後幫你總結出要點。
如果你錯過了公司會議,但可以拿到一小時時長的會議錄音,Gemini就能立刻幫你總結出會議要點。
為了幫助學生和教師,在NotebookLM中,Google設計了一個’音頻概述’的功能。
把左邊的所有材料當作輸入,Notebook就可以把它們整合成一個個人化的科學討論了。
對於聽覺學習型學生,這種形式就非常生動。
示範這個demo的Josh表示,自己的兒子第一次看到這個功能時,直接驚掉下巴。
他第一次感覺到,學習不再是死板的,牛頓力學定律居然以透過籃球來學習!
支援多模態的Gemini可以處理你上傳的任何格式的訊息,理解內容後將其改造成適合你的形式,與你對話互動了!
Agent:幫你申請退貨
接下來,劈柴展示了Agent的一些例子。
買了一雙鞋子,不合適想退回怎麼辦?
拍一張照片給Agent,它就可以從你的信箱搜出訂單後,幫你填寫退貨單了。
再例如,你剛搬到某個城市,Agent就能幫你探索你在這個城市所需的服務了,比如乾洗店、幫忙遛狗的人等等。
如果靠我們自己搜索,可是要搜十幾個網站,但Gemini可以發揮自己的’多步驟推理’能力包攬這些任務,把你需要的資訊一次性提供給你!
搜尋和整合資訊的功能非常強大,輸入新家的地址後,它甚至可以代替軟體問你外帶應該放哪個位置。
總的來說,Google的理念就是:利用Gemini的多模態、超長上下文和智能體能力,把世界上的所有資訊組織起來,讓它們對每個人都可觸達、可利用。
而最終目標,就是讓AI對每個人都有用。
Google搜索,被Gemini徹底重塑
之前OpenAI一直有意無意放出煙霧彈,聲稱要發布全新的搜尋產品,等於是把刀架在Google脖子上了。
果然,Google這次不甘示弱,放出了個大的。
從今天開始,在Gemini的加持下,Google搜尋會徹底變樣。
在搜尋框下,會出現一個為你量身訂做的AI總結。
注意,它並不是簡單地將所有內容拼湊在一起,而是幫你把活都做了!
你的問題是什麼樣,它就會幫你做規劃,顯示出若干個卡片,讓搜尋資訊以鮮明的方式被呈現出來。
這次AI Overview即將發布的另一個重磅功能,就是多步驟推理。
它能將使用者輸入的一個複雜問題分解成多個部分,確定需要解決哪些問題,以及用什麼順序解決。
因此,以前可能要花幾分鐘甚至幾個小時的研究,現在幾秒鐘內就可以完成!因為它將十個問題合而為一。
例如,如果想找到波士頓最好的瑜珈或普拉提工作室,它會直接搜出來結果,然後幫你整理好情況介紹和工作時間。
只要一次搜索,所有需要的資訊就會自動呈現出來。
在下面這個例子中,你可以要求Google提供一個三天的飲食計畫。
這些食譜被從整個網路整合出來,清晰又全面。
而且,我們還可以用影片去搜尋了!
例如,該怎麼修這台唱片機?
以前,我們需要進行一堆搜索,確定它的牌子、型號。
現在,直接拍一個影片丟給Google,然後直接開口問:它的這個毛病是什麼原因?
Google用AI Overview,給了最全面的資訊。
從此,在Google搜尋中,你需要做的,就是簡單的’張嘴問’。
對標GPT-4o,Project Astra打造通用AI智能體
我們已經看到,新模型GPT-4o賦予了ChatGPT強大的即時對話能力,讓Her走進現實。
全新AI語音助手,是通往AGI的下一個未來。
對標OpenAI,GoogleDeepMind今天首次對外公佈了’通用AI智能體’新項目——Astra。
其實,昨天Google放了一個demo,已經讓所有人對Astra計畫有了初步的了解。
而今天,現場的示範更加爆炸。
網友稱,這是GoogleI/O大會中,自己最喜歡的part。
不僅有Astra強大的對答如流的能力,還首次展示了’GoogleAR原型眼鏡’配上AI的震撼演示。
召喚Gemini之後,測試者提出問題,’當你看到會發出聲音的東西時,告訴我’。
它回答道,’我看到一個揚聲器,它可能會發聲’。
接下來,測試者用紅色剪頭指向揚聲器的頂部,再次問道,’這個揚聲器的部件叫什麼’?
Gemini準確理解指令,並答出’這是高音揚聲器,能產生高頻的聲音’。
然後,對著桌上一桶彩色蠟筆,讓Gemini就展示的物體,給出了’押韻’的創意——
‘Creative crayons color cheerfully. They certainly craft colorful creations. ‘
Gemini以’c’音重複開頭,生動形像地描繪了用蠟筆歡快塗色,可以創作出許多絢麗多彩作品的場景。
而更讓你意想不到的是,它還可以讀懂程式碼。
甚至不是截圖,而是用攝影機懟著電腦螢幕拍,然後問Gemini’這部分程式碼是做什麼的’?
Gemini看了一眼,就立刻給答案:『此段程式碼定義了加密解密函數。它似乎使用AES CBC加密,根據密鑰和初始化向量對資料進行編碼和解碼’。
再將鏡頭移向窗外,’我在哪個街區’?
Gemini便回答道,’這似乎是倫敦國王十字區,這裡以火車站和交通樞紐而聞名’。
眼鏡找不到了?
直接可以問Gemini,’你記得在哪裡見過我的眼鏡’?
它立刻回想剛剛見到的場景,’是的,我記得。你的眼鏡就在桌上,旁邊有一個紅蘋果’。
要知道,剛剛這個問題並沒有向它提過,Astra完全是憑自己的視覺記憶回答出來的,簡直成精了。
而Astra的這番表現,直接讓全場倒吸一口氣,發出驚呼。
Google原型AR眼鏡首現身
接下來的演示,更酷了。
剛找到的眼鏡,竟是Google的原型AR眼鏡!配合強大的Gemini模型,即將開啟全新的應用。
測試者走到白板前,看向一個’伺服器’的構建示意圖,然後問道,’我應該怎麼做能使這個系統更快’?
Gemini表示,’在伺服器和資料庫之間,添加快取可以提高速度’。
再例如,’看到如下圖,會讓你想起什麼’?
——薛丁格的貓!
‘在幫我給這對傢伙,取一個二重唱樂隊名字’。
——Golden Stripes
大會上,Hassabis稱,’一直以來,Google希望構建一個能在日常生活中真正有所幫助的通用AI智能體。如今,這個願景成為現實,可以追溯到很多年前。這也是Google從頭開始打造多模態Gemini的主要原因’。
真正的通用AI智能體,必須像人類一樣,對複雜、動態的世界做出理解和回應。
它需要接受和記住所看到的內容,以便理解上下文採取行動,並且具有主動性和個性化。
甚至,你可以與其如真人般絲滑交流,沒有任何延遲或延遲。
為了打造這款全能AI智能體,GoogleDeepMind克服了很困難的工程挑戰-將AI反應時間降到對話水準。
具體來說,Google團隊在Gemini的基礎上,開發了能夠持續編碼視訊幀的智慧體。
然後,將視訊和語音多模態輸入,整合到事件時間軸中並緩存,以便實現AI智能體高效召回,更快處理資訊。
此外,Google也使用廣泛的語調變化,增強了語音輸出效果。
基於這些努力,Astra能夠更好地理解上下文,在交談中可以快速做出反應,讓互動的節奏和品質感覺更自然。
有網友稱,’Google的這個Astra專案絕對是遊戲規則的改變者,我們現在生活在一個由個人AI助手組成的世界,聊天機器人(10.840, 0.25, 2.36%)現在已經過時了。它可以即時地看、說、聽,幾乎沒有延遲’
當然,這次演示中,Google偷偷推出的AR硬件,也成為網友們的關注點。
Google科學家剛剛放出了,用Astra看GoogleI/O大會的示範,可以自己感受下。
圖像、音樂、視頻,面面俱到
同時,Google大會上再次推出了一系列關於’生成式媒體工具’的最新進展。
其中,包括圖像、音樂,以及視訊模型。
最強AI文生圖Imagen 3
首先,AI文字到圖像生成模型Imagen 3迎來重磅升級。
比起上一代,Imagen 3能產生更多細節、光影豐富,且幹擾偽影更少的影像。
新模型對提示的理解能力,得到顯著提升,可以從較長的提示中,捕捉細節。
如下圖中,對狼的特徵,背景顏色,畫質品質等要求,Imagen 3一致地呈現了出來。
另外,Imagen 3可以產生視覺豐富、高品質的影像,有良好光照和構圖。
它可以準確地渲染小細節,例如人手上的細微皺紋,以及複雜的紋理。
下圖中,毛絨大象清晰的編織紋理,還有光照,效果鮮明。
Imagen 3還可以在更長的提示中,加入一些微小的細節,例如’野花’、’藍色的小鳥’. . .
Google也大幅改進了Imagen 3的文字渲染能力。
如下圖片提示,’由各種顏色的羽毛組成的’光’字,黑色背景’,然後Imagen 3生成了漂亮的字體。
以下是官方給出的更多演示demo:
影片生成模型Veo,1080p超過60秒
這次Google發布的影片模型Veo,可以看作是對OpenAI Sora的正面迎戰了。
可以看出,Veo生成的影片不僅真實,而且在光線、構圖等方面具有驚人的電影感。
Veo的推出建立在DeepMind過去一年各種開創性成果的基礎上,包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。
Google結合了這些成果中最好的架構和技術,提高了一致性、品質和解析度。
Veo具備1080p的高品質,使用者提示可以是文字、影像、影片等各種格式,還能捕捉到其中關於視覺效果和影像風格的各種細節描述。
透過點擊’擴充’按鈕,使用者就可以持續增加影片的時長,最終,它的長度已經超過Sora達到了1分10秒。
可以看到,在下面這個影片中,汽車的形狀與周圍環境始終保持一致。
有這種專業級的生成效果,電影製作人可以直接用Veo來協助創作了。
從此,每個人都可以成為導演,也應該成為導演。
好消息是,Veo已經開始在官網開放試用了。此外,團隊也開發了實驗工具VideoFX搭載Veo模型。
申請入口:https://aitestkitchen.withgoogle.com/tools/video-fx
在Google官博中,給了Veo更多演示,也特別強調了皆是AI生成,未經修改:
Music AI Sandbox
在音樂方面,Google和Youtube一起建造了Music AI Sandbox。
輸入一段旋律,它就可以進行風格遷移,幫助藝術家快速實現自己的想法和創意。
為此,Google也刻意邀請了許多音樂家、詞曲作者和製作人來測試。
他們驚喜地發現,使用這個新的AI音樂工具,他們居然做出了自己從未想到的音樂!
例如這位音樂製作人,希望把樂曲中的這段旋律變成一個風格。
Music AI Sandbox的產出,讓他激動地當場跳起來。
他表示,作為一個嘻哈音樂製作人,AI帶給他的嘗試空間,是無止境的。
Demis Hassabis:我在思考智慧的本質
GoogleDeepMind負責人Hassabis表示,自己從小就玩西洋棋時,就一直在思考智慧的本質是什麼。
他深信,如果我們能以負責任的方式建造AGI,影響將是深刻的。
GoogleDeepMind自去年成立以來成績斐然。而最近的大成就,就是幾乎可以預測所有生命分子結構和相互作用的AlphaFold 3了。
原生多模態Gemini App
Google也打造了一個Gemini原生多模態應用,可以同時文字、音訊、影片內容。
一直以來,Google希望能夠打造一個有用的個人AI助理。
Gemini App,正重新定義我們的互動方式。
為了讓我們與Gemini互動更自然,Google發布了Gemini Live。
有了它,你可以在給朋友發訊息的同一個程式中,也能與Gemini聊天。
你甚至可以控制自己的說話節奏,或隨時打斷Gemini回答,如同與真人交流一樣。
例如,你正在為一場面試做準備,只需要進入Live,讓Gemini陪你一起做準備。
Gemini可以與你進行模擬面試排練,甚至在與潛在雇主交談時應該突出哪些技能,還能提供建議。
Google表示,今年晚些時候,會推出相機模式,可以以周圍環境與Gemini實現對話。
同時,Google也推出了根據個人需求自訂的Gemini專家——Gems。
它可以是你的健身教練、瑜珈夥伴,也可以是你的寫作創意導師、程式夥伴等等。
接下來,Google也展示了透過規劃,讓我們如何離AI助理更近一步。
例如,一次旅行的規劃,需要涉及地理、時間、天氣等諸多因素,需要AI能夠做出優先順序和決策的能力。
Gemini Advanced的全新旅行規劃,可以將模型推理和智慧融為一體,為人類更好服務。
Ask Photos新功能
在Gemini的加持下,Google也會推出Ask Photos的新功能。
例如,如果付停車費時忘了自己的車牌號,就可以直接詢問自己的車牌照片是哪個,不需要翻閱手機裡的大量照片了。
在例如,你可以問它女兒是什麼時候學會游泳的?她的游泳是怎麼進步的?
Gemini會辨識眾多照片中的不同場景,將所有相關內容加總。
Gemini 1.5 Flash:更小,更快,200萬token
根據某些Gemini 1.5 Pro用戶的回饋,一些程式需要更低的延遲和服務成本。
針對這一點,Google發布了Gemini 1.5 Flash。
跟Pro比,Flash是一個更輕量級的模型,專為那些對響應速度要求極高的特定或頻繁任務優化。
而且,它同樣具有多模態、1M tokens長上下文的特點,只不過實現了輕量化、低延遲、高效推理,每百萬個token的價格僅是Pro版的二十分之一。
今天起,Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了,開發者可以註冊申請兩百萬token的內測版。
此外,為了方便開發者,Google也對Gemini的API功能進行了三項最佳化-視訊幀提取、平行函數呼叫和上下文快取。
第六代TPU Trillium,4.7倍效能提升
在背後給這些科技進步提供基礎建設的,就是Google的TPU。
簡單來說,相較於TPU v5e,第六代Trillium TPU在性能上實現了高達4.7倍的提升,並在能源效率上提升了超過67%。
為了實現這一飛躍,Google增大了矩陣乘法單元(MXUs)的規模並提升了時脈速度。
並為Trillium配備了第三代SparseCore——專門用於處理高級排序和推薦工作負載中常見的超大嵌入的加速器。
在這裡,SparseCores可以透過從TensorCores策略性地卸載隨機和細粒度訪問,有效加速了重嵌入型工作負載。
同時,Google也將高頻寬記憶體(HBM)的容量和頻寬翻倍,並將晶片間互連(ICI)的頻寬提升了一倍。
由此,Trillium可以支援更複雜的模型,擁有更多的權重和更大的鍵值緩存,並大幅縮短了大模型的訓練時間和響應延遲。
在高頻寬、低延遲的Pod中,Trillium可以擴展至256個TPU。
而透過多切片技術和Titanium智慧處理單元(IPU),Trillium還可以進一步擴展——透過數百個Pod,連接數以萬計的晶片,並在一個多千兆位元每秒的資料中心網路支援下,組成一個超大規模的超級電腦。
更多的開源模型
最後,Google也發布了自家首個視覺-語言開源模型——PaliGemma,專門針對圖像標註、視覺問答及其他圖像標籤化任務進行了優化。
不僅如此,Google還將在6月推出規模更大的開源模型——Gemma 2 27B。
在效能方面,全新的Gemma 27B不僅超越了規模大了2倍還多的機型,還能在GPU或單一TPU主機上高效運作。
來源:新智元