Google瘋狂復仇：終極殺器硬剛GPT-4o，Gemini顛覆搜索，影片AI震破Sora

2024-05-15 Comments 0 Comment

昨天被OpenAI提前截胡的Google，今天不甘示弱開啟反擊！大殺器Project Astra效果不輸GPT-4o，文生視頻模型Veo硬剛Sora，用AI徹底顛覆Google搜索，Gemini 1.5 Pro達到200萬token上下文…Google轟出一連串武器，對OpenAI貼臉開大。

GoogleI/O 2024如期來了，眼花撩亂地發布了一堆更新。跟OpenAI半小時的’小而美’發布會相比，Google顯然準備得更加充分，當然，時間也相當之長…

準備好，Google要開始轟炸了。

首先，Gemini 1.5 Pro，上下文長度將達到驚人的200萬token。

然後，面對昨天OpenAI GPT-4o的挑釁，Google直接甩出大殺器Project Astra，視覺辨識與語音互動效果，跟GPT-4o不相上下。

接著，Google祭出文生影片模型Veo硬剛Sora，效果酷炫，長度超過1分鐘，打破Sora紀錄。

最後來了一個重磅消息：Google搜尋將被Gemini重塑，形態從此徹底改變！我們不再需要自己點進搜尋結果，而是由多步驟推理的AI Overview來代辦一切。

發表會結束後，劈柴甚至還用Gemini算了一下，整個發表會共提了121次AI。

Gemini時代，來了

CEO劈柴上來就無視了GPT和Llama的存在，這樣總結道：『我們完全處於Gemini時代’。

並且給予數據：如今全世界使用Gemini的開發者，一共有150萬人。

萬眾矚目的Gemini更新如期而至。

Gemini 1.5 Pro最強特性之一，就是超長的上下文窗口，達到了100萬tokens的級別，超過了目前所有的大語言模型，而且開放給個人用戶使用。

今天，劈柴宣布：它的上下文token數將會達到2000K（200萬）！相較之下，GPT-4 Turbo只有128K，Claude 3也只有200K。

而這也意味著──你可以給模型輸入2小時影片、22小時音訊、超過6萬行程式碼或140萬多個單字。

這個上下文長度，已經超過了目前所有大模型。

但是，這並不是終點，Google的目標是──無限長上下文，不過，這就是後話了。

用籃球講解牛頓運動定律

在這樣的Gemini加持下，我們可以實現許多迅捷的功能。

例如，身為父母需要了解孩子在學校的情況，就可以在Gmail中要求Gemini辨識所有關於學校的電子郵件，然後幫你總結出要點。

如果你錯過了公司會議，但可以拿到一小時時長的會議錄音，Gemini就能立刻幫你總結出會議要點。

為了幫助學生和教師，在NotebookLM中，Google設計了一個’音頻概述’的功能。

把左邊的所有材料當作輸入，Notebook就可以把它們整合成一個個人化的科學討論了。

對於聽覺學習型學生，這種形式就非常生動。

示範這個demo的Josh表示，自己的兒子第一次看到這個功能時，直接驚掉下巴。

他第一次感覺到，學習不再是死板的，牛頓力學定律居然以透過籃球來學習！

支援多模態的Gemini可以處理你上傳的任何格式的訊息，理解內容後將其改造成適合你的形式，與你對話互動了！

Agent：幫你申請退貨

接下來，劈柴展示了Agent的一些例子。

買了一雙鞋子，不合適想退回怎麼辦？

拍一張照片給Agent，它就可以從你的信箱搜出訂單後，幫你填寫退貨單了。

再例如，你剛搬到某個城市，Agent就能幫你探索你在這個城市所需的服務了，比如乾洗店、幫忙遛狗的人等等。

如果靠我們自己搜索，可是要搜十幾個網站，但Gemini可以發揮自己的’多步驟推理’能力包攬這些任務，把你需要的資訊一次性提供給你！

搜尋和整合資訊的功能非常強大，輸入新家的地址後，它甚至可以代替軟體問你外帶應該放哪個位置。

總的來說，Google的理念就是：利用Gemini的多模態、超長上下文和智能體能力，把世界上的所有資訊組織起來，讓它們對每個人都可觸達、可利用。

而最終目標，就是讓AI對每個人都有用。

Google搜索，被Gemini徹底重塑

之前OpenAI一直有意無意放出煙霧彈，聲稱要發布全新的搜尋產品，等於是把刀架在Google脖子上了。

果然，Google這次不甘示弱，放出了個大的。

從今天開始，在Gemini的加持下，Google搜尋會徹底變樣。

在搜尋框下，會出現一個為你量身訂做的AI總結。

注意，它並不是簡單地將所有內容拼湊在一起，而是幫你把活都做了！

你的問題是什麼樣，它就會幫你做規劃，顯示出若干個卡片，讓搜尋資訊以鮮明的方式被呈現出來。

這次AI Overview即將發布的另一個重磅功能，就是多步驟推理。

它能將使用者輸入的一個複雜問題分解成多個部分，確定需要解決哪些問題，以及用什麼順序解決。

因此，以前可能要花幾分鐘甚至幾個小時的研究，現在幾秒鐘內就可以完成！因為它將十個問題合而為一。

例如，如果想找到波士頓最好的瑜珈或普拉提工作室，它會直接搜出來結果，然後幫你整理好情況介紹和工作時間。

只要一次搜索，所有需要的資訊就會自動呈現出來。

在下面這個例子中，你可以要求Google提供一個三天的飲食計畫。

這些食譜被從整個網路整合出來，清晰又全面。

而且，我們還可以用影片去搜尋了！

例如，該怎麼修這台唱片機？

以前，我們需要進行一堆搜索，確定它的牌子、型號。

現在，直接拍一個影片丟給Google，然後直接開口問：它的這個毛病是什麼原因？

Google用AI Overview，給了最全面的資訊。

從此，在Google搜尋中，你需要做的，就是簡單的’張嘴問’。

對標GPT-4o，Project Astra打造通用AI智能體

我們已經看到，新模型GPT-4o賦予了ChatGPT強大的即時對話能力，讓Her走進現實。

全新AI語音助手，是通往AGI的下一個未來。

對標OpenAI，GoogleDeepMind今天首次對外公佈了’通用AI智能體’新項目——Astra。

其實，昨天Google放了一個demo，已經讓所有人對Astra計畫有了初步的了解。

而今天，現場的示範更加爆炸。

網友稱，這是GoogleI/O大會中，自己最喜歡的part。

不僅有Astra強大的對答如流的能力，還首次展示了’GoogleAR原型眼鏡’配上AI的震撼演示。

召喚Gemini之後，測試者提出問題，’當你看到會發出聲音的東西時，告訴我’。

它回答道，’我看到一個揚聲器，它可能會發聲’。

接下來，測試者用紅色剪頭指向揚聲器的頂部，再次問道，’這個揚聲器的部件叫什麼’？

Gemini準確理解指令，並答出’這是高音揚聲器，能產生高頻的聲音’。

然後，對著桌上一桶彩色蠟筆，讓Gemini就展示的物體，給出了’押韻’的創意——

‘Creative crayons color cheerfully． They certainly craft colorful creations． ‘

Gemini以’c’音重複開頭，生動形像地描繪了用蠟筆歡快塗色，可以創作出許多絢麗多彩作品的場景。

而更讓你意想不到的是，它還可以讀懂程式碼。

甚至不是截圖，而是用攝影機懟著電腦螢幕拍，然後問Gemini’這部分程式碼是做什麼的’？

Gemini看了一眼，就立刻給答案：『此段程式碼定義了加密解密函數。它似乎使用AES CBC加密，根據密鑰和初始化向量對資料進行編碼和解碼’。

再將鏡頭移向窗外，’我在哪個街區’？

Gemini便回答道，’這似乎是倫敦國王十字區，這裡以火車站和交通樞紐而聞名’。

眼鏡找不到了？

直接可以問Gemini，’你記得在哪裡見過我的眼鏡’？

它立刻回想剛剛見到的場景，’是的，我記得。你的眼鏡就在桌上，旁邊有一個紅蘋果’。

要知道，剛剛這個問題並沒有向它提過，Astra完全是憑自己的視覺記憶回答出來的，簡直成精了。

而Astra的這番表現，直接讓全場倒吸一口氣，發出驚呼。

Google原型AR眼鏡首現身

接下來的演示，更酷了。

剛找到的眼鏡，竟是Google的原型AR眼鏡！配合強大的Gemini模型，即將開啟全新的應用。

測試者走到白板前，看向一個’伺服器’的構建示意圖，然後問道，’我應該怎麼做能使這個系統更快’？

Gemini表示，’在伺服器和資料庫之間，添加快取可以提高速度’。

再例如，’看到如下圖，會讓你想起什麼’？

——薛丁格的貓！

‘在幫我給這對傢伙，取一個二重唱樂隊名字’。

——Golden Stripes

大會上，Hassabis稱，’一直以來，Google希望構建一個能在日常生活中真正有所幫助的通用AI智能體。如今，這個願景成為現實，可以追溯到很多年前。這也是Google從頭開始打造多模態Gemini的主要原因’。

真正的通用AI智能體，必須像人類一樣，對複雜、動態的世界做出理解和回應。

它需要接受和記住所看到的內容，以便理解上下文採取行動，並且具有主動性和個性化。

甚至，你可以與其如真人般絲滑交流，沒有任何延遲或延遲。

為了打造這款全能AI智能體，GoogleDeepMind克服了很困難的工程挑戰－將AI反應時間降到對話水準。

具體來說，Google團隊在Gemini的基礎上，開發了能夠持續編碼視訊幀的智慧體。

然後，將視訊和語音多模態輸入，整合到事件時間軸中並緩存，以便實現AI智能體高效召回，更快處理資訊。

此外，Google也使用廣泛的語調變化，增強了語音輸出效果。

基於這些努力，Astra能夠更好地理解上下文，在交談中可以快速做出反應，讓互動的節奏和品質感覺更自然。

有網友稱，’Google的這個Astra專案絕對是遊戲規則的改變者，我們現在生活在一個由個人AI助手組成的世界，聊天機器人(10.840, 0.25, 2.36%)現在已經過時了。它可以即時地看、說、聽，幾乎沒有延遲’

當然，這次演示中，Google偷偷推出的AR硬件，也成為網友們的關注點。

Google科學家剛剛放出了，用Astra看GoogleI/O大會的示範，可以自己感受下。

圖像、音樂、視頻，面面俱到

同時，Google大會上再次推出了一系列關於’生成式媒體工具’的最新進展。

其中，包括圖像、音樂，以及視訊模型。

最強AI文生圖Imagen 3

首先，AI文字到圖像生成模型Imagen 3迎來重磅升級。

比起上一代，Imagen 3能產生更多細節、光影豐富，且幹擾偽影更少的影像。

新模型對提示的理解能力，得到顯著提升，可以從較長的提示中，捕捉細節。

如下圖中，對狼的特徵，背景顏色，畫質品質等要求，Imagen 3一致地呈現了出來。

另外，Imagen 3可以產生視覺豐富、高品質的影像，有良好光照和構圖。

它可以準確地渲染小細節，例如人手上的細微皺紋，以及複雜的紋理。

下圖中，毛絨大象清晰的編織紋理，還有光照，效果鮮明。

Imagen 3還可以在更長的提示中，加入一些微小的細節，例如’野花’、’藍色的小鳥’．．．

Google也大幅改進了Imagen 3的文字渲染能力。

如下圖片提示，’由各種顏色的羽毛組成的’光’字，黑色背景’，然後Imagen 3生成了漂亮的字體。

以下是官方給出的更多演示demo：

影片生成模型Veo，1080p超過60秒

這次Google發布的影片模型Veo，可以看作是對OpenAI Sora的正面迎戰了。

可以看出，Veo生成的影片不僅真實，而且在光線、構圖等方面具有驚人的電影感。

Veo的推出建立在DeepMind過去一年各種開創性成果的基礎上，包括GQN、Phenaki、Walt、VideoPoet、Lumiere等等。

Google結合了這些成果中最好的架構和技術，提高了一致性、品質和解析度。

Veo具備1080p的高品質，使用者提示可以是文字、影像、影片等各種格式，還能捕捉到其中關於視覺效果和影像風格的各種細節描述。

透過點擊’擴充’按鈕，使用者就可以持續增加影片的時長，最終，它的長度已經超過Sora達到了1分10秒。

可以看到，在下面這個影片中，汽車的形狀與周圍環境始終保持一致。

有這種專業級的生成效果，電影製作人可以直接用Veo來協助創作了。

從此，每個人都可以成為導演，也應該成為導演。

好消息是，Veo已經開始在官網開放試用了。此外，團隊也開發了實驗工具VideoFX搭載Veo模型。

申請入口：https：//aitestkitchen.withgoogle.com/tools/video-fx

在Google官博中，給了Veo更多演示，也特別強調了皆是AI生成，未經修改：

Music AI Sandbox

在音樂方面，Google和Youtube一起建造了Music AI Sandbox。

輸入一段旋律，它就可以進行風格遷移，幫助藝術家快速實現自己的想法和創意。

為此，Google也刻意邀請了許多音樂家、詞曲作者和製作人來測試。

他們驚喜地發現，使用這個新的AI音樂工具，他們居然做出了自己從未想到的音樂！

例如這位音樂製作人，希望把樂曲中的這段旋律變成一個風格。

Music AI Sandbox的產出，讓他激動地當場跳起來。

他表示，作為一個嘻哈音樂製作人，AI帶給他的嘗試空間，是無止境的。

Demis Hassabis：我在思考智慧的本質

GoogleDeepMind負責人Hassabis表示，自己從小就玩西洋棋時，就一直在思考智慧的本質是什麼。

他深信，如果我們能以負責任的方式建造AGI，影響將是深刻的。

GoogleDeepMind自去年成立以來成績斐然。而最近的大成就，就是幾乎可以預測所有生命分子結構和相互作用的AlphaFold 3了。

原生多模態Gemini App

Google也打造了一個Gemini原生多模態應用，可以同時文字、音訊、影片內容。

一直以來，Google希望能夠打造一個有用的個人AI助理。

Gemini App，正重新定義我們的互動方式。

為了讓我們與Gemini互動更自然，Google發布了Gemini Live。

有了它，你可以在給朋友發訊息的同一個程式中，也能與Gemini聊天。

你甚至可以控制自己的說話節奏，或隨時打斷Gemini回答，如同與真人交流一樣。

例如，你正在為一場面試做準備，只需要進入Live，讓Gemini陪你一起做準備。

Gemini可以與你進行模擬面試排練，甚至在與潛在雇主交談時應該突出哪些技能，還能提供建議。

Google表示，今年晚些時候，會推出相機模式，可以以周圍環境與Gemini實現對話。

同時，Google也推出了根據個人需求自訂的Gemini專家——Gems。

它可以是你的健身教練、瑜珈夥伴，也可以是你的寫作創意導師、程式夥伴等等。

接下來，Google也展示了透過規劃，讓我們如何離AI助理更近一步。

例如，一次旅行的規劃，需要涉及地理、時間、天氣等諸多因素，需要AI能夠做出優先順序和決策的能力。

Gemini Advanced的全新旅行規劃，可以將模型推理和智慧融為一體，為人類更好服務。

Ask Photos新功能

在Gemini的加持下，Google也會推出Ask Photos的新功能。

例如，如果付停車費時忘了自己的車牌號，就可以直接詢問自己的車牌照片是哪個，不需要翻閱手機裡的大量照片了。

在例如，你可以問它女兒是什麼時候學會游泳的？她的游泳是怎麼進步的？

Gemini會辨識眾多照片中的不同場景，將所有相關內容加總。

Gemini 1.5 Flash：更小，更快，200萬token

根據某些Gemini 1.5 Pro用戶的回饋，一些程式需要更低的延遲和服務成本。

針對這一點，Google發布了Gemini 1.5 Flash。

跟Pro比，Flash是一個更輕量級的模型，專為那些對響應速度要求極高的特定或頻繁任務優化。

而且，它同樣具有多模態、1M tokens長上下文的特點，只不過實現了輕量化、低延遲、高效推理，每百萬個token的價格僅是Pro版的二十分之一。

今天起，Gemini 1.5 Flash在Google AI Studio和Vertex AI中就可用了，開發者可以註冊申請兩百萬token的內測版。

此外，為了方便開發者，Google也對Gemini的API功能進行了三項最佳化－視訊幀提取、平行函數呼叫和上下文快取。

第六代TPU Trillium，4.7倍效能提升

在背後給這些科技進步提供基礎建設的，就是Google的TPU。

簡單來說，相較於TPU v5e，第六代Trillium TPU在性能上實現了高達4.7倍的提升，並在能源效率上提升了超過67%。

為了實現這一飛躍，Google增大了矩陣乘法單元（MXUs）的規模並提升了時脈速度。

並為Trillium配備了第三代SparseCore——專門用於處理高級排序和推薦工作負載中常見的超大嵌入的加速器。

在這裡，SparseCores可以透過從TensorCores策略性地卸載隨機和細粒度訪問，有效加速了重嵌入型工作負載。

同時，Google也將高頻寬記憶體（HBM）的容量和頻寬翻倍，並將晶片間互連（ICI）的頻寬提升了一倍。

由此，Trillium可以支援更複雜的模型，擁有更多的權重和更大的鍵值緩存，並大幅縮短了大模型的訓練時間和響應延遲。

在高頻寬、低延遲的Pod中，Trillium可以擴展至256個TPU。

而透過多切片技術和Titanium智慧處理單元（IPU），Trillium還可以進一步擴展——透過數百個Pod，連接數以萬計的晶片，並在一個多千兆位元每秒的資料中心網路支援下，組成一個超大規模的超級電腦。

更多的開源模型

最後，Google也發布了自家首個視覺-語言開源模型——PaliGemma，專門針對圖像標註、視覺問答及其他圖像標籤化任務進行了優化。

不僅如此，Google還將在6月推出規模更大的開源模型——Gemma 2 27B。

在效能方面，全新的Gemma 27B不僅超越了規模大了2倍還多的機型，還能在GPU或單一TPU主機上高效運作。

來源：新智元

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。