OpenAI再次加塞砸場？谷歌展示自己才是AI薩諾斯

2024-05-15 Comments 0 Comment

這已經不是第一次了。 OpenAI擺明了是要加塞，故意在Google發表會前一天發布自己的產品，砸直接競爭對手的場子，搶佔媒體報道風頭。因為是新創公司，OpenAI總是能比Google更快反應，靈活安排活動時間。

他們上次這麼做還是是2月份，Google發布了多模態大模型Gemini 1.5 Pro，直接將效能拉到支援百萬Token的業界新高。但這並沒有成為當天的焦點，因為OpenAI在同一天發布了文生視頻工具Sora，諸多栩栩如生又極具想像力的AI視頻隨即成為了社交媒體上的爆款，搶盡了谷歌Gemini的幾乎所有風頭。

這次OpenAI又搞突然襲擊。 GoogleI/O大會的日期是提前數月就宣布的，但OpenAI上週突然宣佈在谷歌大會前一天舉辦發布會，在昨天發布了最新大模型GPT-4o（o代表著Omnimodel全能模型），提前引爆了AI大模型的關注熱度，再次打亂了Google即將發布AI新品的傳播節奏。

GPT-4o不僅是完全免費的，而且覆蓋了桌面與移動App，不僅性能大幅提升，而且可以綜合處理文本、圖片和音頻，人機交互更加自然簡單。舉例來說，可以讓GPT-4o加入網路會議，給使用者記錄發言摘要摘要。

GPT-4o具體有什麼用？使用者可以讓GPT-4o處理眼前的問題，極大提升生產力，可以與AI即時語音對話，就像是與真人聊天一樣自然流暢，AI處理反應已經達到人類的速度，甚至還可以理解用戶的情緒，以相應的情感回應。

那麼，面對OpenAI的故意撞車和搶佔風頭，Google在今天的I/O大會上又拿出了怎樣的AI產品，是否帶來了足夠的震撼與新意？

Gemini 1.5 Pro支援兩百萬Token

GoogleI/O開發者大會今年已經進入了第16個年頭，AI早已成為I/O大會的絕對乃至唯一的主角。谷歌CEO皮查伊更在結束時宣布，整場發表會一共說了121次AI，引發了全場大笑。（這個梗是因為去年媒體統計谷歌在I/O上一共說了143次AI，今年谷歌乾脆自己公佈統計數字）。

雖然整場發布會都沒有提及競爭對手，但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實力，宣布穀歌已經全面進入Gemini時代。他強調Google已經在AI領域投入了十多年時間，貫穿了AI的每一層：研究、產品、基礎設施。

雖然AI新貴OpenAI在產品發布方面搶佔了先發優勢，但谷歌在研究論文、用戶規模、產品數量以及算力方面都佔據著壓倒性優勢，這也是OpenAI必須與微軟結盟的直接原因，因為兩家公司都不可能單獨與Google掰手腕。

皮查伊也宣布，Gemini大模型已經涵蓋了Google全平台的20億用戶產品，僅三個月就有100多萬用戶註冊使用。而兩個月前發布的原生多模型Gemini 1.5 Pro已經得到超過150萬開發者的使用。

在性能方面，Google就是AI業界的薩諾斯。 Gemini 1.5 Pro先前直接將Token（上下文處理）性能提升到了百萬級別，全面壓倒了受困於性能變慢的GPT-4.0 Turbo。三個月後，Google在今天宣布改良版的Gemini 1.5 Pro全面開放給Gemini Advanced的用戶，並且支援35種語言。

更殘暴的是，Google也將Gemini 1.5 Pro的上下文視窗處理效能直接翻倍到了200萬（暫時只提供給開發者），在這方面OpenAI只能望塵莫及。皮查伊宣布，這是朝著無限上下文的最終目標邁出的重要一步。

Gemini 1.5 Pro可以帶給使用者什麼樣的實際體驗？谷歌用Workspace辦公室組件展示了AI為生產力帶來的巨大變化。舉例來說，如果是透過Google Meets進行遠端會議，即使是用戶無法參會，也可以讓Gemini為自己錄音並列出會議紀錄。

有了Gemini，Gmail信箱就有了靈魂。代寫郵件已經是基本操作了。使用者可以讓Gemini幫忙整理和總結Gmail的大量郵件，根據最近的收據和信用卡帳單郵件整理歸納出用戶的消費支出，給出一份專業又具體的財務支出清單。

在電商時代，Gemini也能扮演智慧管家的角色。用戶甚至可以讓Gemini自動在郵件中找到收據郵件，並進入商家平台申請退貨，還能讓快遞上門取貨。這一切只需要使用者向Gemini下達指令。 Gemini 1.5 Pro從今天開始全面進駐Workspace Labs。

輕量AI模型Flash

Gemini模型家族的新品還不僅於此。 GoogleDeepMind CEO哈撒比斯（Demis Hassabis）在主題演講中介紹了Gemini的新成員：輕量、迅捷、高效的模型1.5 Flash，以及未來AI助理Project Astra。

去年12月，Google發布了第一代原生多模型Gemini 1.0，包含了Ultra、Pro以及Nano三個版本。三個月後Google發布了百萬Token處理能力的Gemini 1.5 Pro。今天谷歌將Gemini 1.5 Pro處理能力提升到200萬級之外，還推出了輕量車型Gemini 1.5 Flash。

雖然Gemini 1.5 Flash的上下文處理能力同樣達到了百萬級別，但卻比1.5 Pro更為輕巧迅速，針對低延遲和專注成本的任務進行了優化，更適合規模化構建。 Gemini 1.5 Flash今天就會在透過GoogleAI Studio和Vertex AI兩大平台提供給開發者。

Project Astra是GoogleDeepMind打造的未來通用智慧AI助手，也是對標OpenAI GPT-4o的產品。 Astra不僅具備多模態處理，可無縫應對文字圖片影片等多媒體內容，還能以更為智慧即時的方式與使用者對話。

或許略微遺憾的是，OpenAI已經在昨天搶先發布了GPT-4o的類似功能，晚了一天亮相的Astra少了諸多驚喜和震撼，或許這就是OpenAI突然搶先發布的主要原因。因為誰先發布就佔據了媒體報道的焦點。如果OpenAI在GoogleAstra之後發布GPT-4o，同樣也會失去許多傳播魅力所在。

搜尋更加人性與個性

從搜尋到郵件，從地圖到圖片，再到辦公組件，Google有著太多上億乃至十億用戶級的產品可以承載AI落地。橫跨iOS與Android平台，行動與桌面兩端的20億+的用戶規模，以及幾乎涵蓋所有領域的產品，更是GoogleAI技術落地的龐大產品軍火庫。

生成式AI在搜尋領域的應用顯然是最直接的使用者體驗。即便微軟借助OpenAI試圖彎道超車，但過去一年市佔率只漲了不到一個百分點（目前3.64%）。而Google雖然市佔率減少了兩個百分點，但目前全球市佔率依然接近91%。

有了Gemini大模型的加持，Google搜尋得以全面提升，提供一對一的解答。使用者可以隨心所欲的提問，無論是具體知識，還是尋求建議，Google搜尋的AI Overviews都可以應答如流，不僅給出實際的回答，更提供資訊來源。

具體來說，用戶搜尋「如何清洗布質沙發」的問題，AI Overviews不僅會提供幾種清洗沙發的方法，還會帶來答案的資訊來源，再附上清洗產品的連結（購買Google搜尋廣告的商家產品）。未來用戶還可以根據自身需求，對AI Overview的回答進行個人化調整，提供更為簡潔扼要或細節詳盡的回答。

事實上，先前已經有不少使用者已經透過Search Labs的實驗功能體驗到了AI Overviews功能。 AI Overviews今天正式在美國市場推出，未來將逐步擴展到其他國家市場。谷歌預計，光是本週時間就會有數億用戶使用到AI Overviews，今年底用戶規模或將突破10億級。

AI功能全面落地手機端

雖然I/O主題演講開始78分鐘後，Google才開始介紹Android平台的AI新功能，但這並不代表Android在GoogleAI策略的重要性降低。實際上，行動端才是使用者體驗GoogleAI功能的最直接平台。

在今年年初三星手機推出GoogleAI技術加持的畫圈搜尋、全螢幕翻譯等人性功能之後（三星國行版使用百度AI技術），半年時間全球已經有超過1億設備搭載了Google畫圈搜尋功能。谷歌預計今年底這一數字將翻一倍，達到兩億設備。

而且，由於GoogleLearnLM模型，畫圈搜尋功能還有了更多的實際運用。從今天開始，畫圈搜尋將幫助學生做家庭作業，替代家教作用，幫助他們更好地了解如何做問題，而不僅僅是給出直接答案。這也是昨天OpenAI GPT-4o所展示的使用場景。

Gemini on Android是Google為Android平台推出的一系列人性化功能。有了這項功能，用戶可以用對話的方式，在寫郵件和發送簡訊的過程中直接產生和發送個人化圖片，可以在YouTube影片中直接尋找想要的內容，在PDF中迅速找到自己所需的內容，不用再自己費力瀏覽搜尋。

在Android裝置端的Gemini Nano模型也帶來了TalkBack和反詐功能，這兩大功能都會在今年稍後發布。有了TalkBack功能，失明或弱視患者可以透過手機攝像頭，聽AI描述眼前的世界，即便沒有網路也可以使用。

智慧反詐功能則可以根據聊天中的敏感內容（例如騙子要求進行銀行轉賬，詢問個人密碼時），即使彈出警告窗，提醒用戶這可能是詐騙電話。由於Gemini Nano完全是基於裝置端，用戶不用擔心自己的通話內容被監聽。

AI圖片工具Ask Photos

Google Photos是Google在2015年發布的雲端相簿服務，iOS和Android用戶可以將自己的所有照片和影片都存入這個雲端相冊，並在任何連網裝置上存取。目前Google Photos每天上傳的照片與影片數量超過了60億。

海量的圖片如何整理和搜索，一直是個使用者體驗難題。現在Google推出了AI工具Ask Photos之後，用戶可以輕鬆尋找出任何想要的圖片，回憶過去的點滴記憶，再也不擔心找不到或花很長時間才能找到想要的照片。

舉例來說，使用者想回想女兒的成長過程，可以向Google Photos提問「女兒是什麼時候學會游泳的？」。谷歌就可以迅速展示小女孩最早開始游泳的照片，讓使用者看到這個溫暖的記憶判斷。

AI甚至可以幫助用戶進行歸納總結。用戶可以提出更為複雜的問題，「女兒的游泳技能是怎麼提升的？」谷歌不僅會搜尋相關的女兒游泳照片，還可以提供一段簡單的說法，幫助用戶更好的回憶女兒的游泳技能的提升過程。

文生視頻模型叫板Sora

谷歌DeepMind的文生視訊模型Veo是今天最為驚豔的產品之一。三個月前OpenAI用一波Sora生成影片搶盡了GoogleGemini 1.5 Pro的風頭，今天Google拿出了自己的產品回擊Sora。

雖然比OpenAI的Sora晚了三個月發布，但Veo帶來的影片卻更為高清流暢自然，看起來更為真實（當然三個月時間，Sora也可能有了重大更新）。 Veo可以產生一分鐘以上的1080p解析度視頻，可以理解「縮時攝影」以及「空拍風景」等術語，展示多種電影與視頻風格。

為了展現Veo在電影產業的潛力，Google也邀請了演出《火星救援》等諸多作品的好萊塢電影人格羅夫（Donald Glover）進行產品試用。這次大會也展示了格羅夫創意工作室Gilga使用Veo製作的數個看起來極具大片風格的影片片段。

Google宣布，Veo從今天開始向特定創作者提供內測，並在未來整合到YouTube Shorts和其他產品中。無論什麼AI功能，蘋果都有海量用戶的產品可以承載。 YouTube Shorts是Google對標TikTok的短影片服務，在發布三年時間之後，目前月活用戶已經突破了23億（當然這是得益於YouTube的龐大體量）。顯然，一旦Veo進入YouTube Shorts，其用戶規模將是Sora所無法想像的。

此外，Google也展示了DeepMind最新的文生圖片模型Imagen 3，這是對應OpenAI的DALL.E3。谷歌在發表會上展示了Imagen 3產生的數張高清圖片，據稱具有更好的自然語言理解，更能理解文字背後的意圖，帶來更為細節、更強渲染能力的圖片。 Imagen 3也從今日開始透過Google的AI圖片工具ImageFX提供給特定創作者測試，未來將整合到Google的機器學習平台Vertex AI中。

文字：一個短髮鬍鬚男子微笑著看著鏡頭。背景模糊，可以看到淺影的樹木和建築。

內文：一隻手握著一個泥塑小鳥雕像，另一手拿著刻刀。可以看到雕刻著的圍巾。他的雙手沾滿粘土。用一張近攝的單眼圖片突顯紋理和雕刻質感。

此外，Google也推出了音樂愛好者的Music AI Sandbox，以生成式AI音樂模型Lyria，幫助音樂人更為便利創作不同風格的音樂作品。這些功能也會整合進YouTube平台。

第六代TPU晶片Trillium

谷歌在AI領域的強大優勢不僅體現在大模型，也體現在他們在AI處理器領域的實力。過去六年時間，業界對機器學習運算能力的需求增加了100萬部，而且每年都會增加10倍。而谷歌在這方面則站在了產業價值鏈的頂端。

早在2016年Google就推出了為AI訓練設計的第一代TPU（客製化張量處理單元）。 Gemini大模型完全是在自己的第四代和第五代TPU上進行訓練與服務的，Google甚至還向Anthropic等其他AI公司提供了TPU訓練服務。相較之下，OpenAI目前還只能靠微軟來獲得訓練能力。

今天谷歌在I/O大會上也發布了第六代TPU處理器Trillum，計劃今年稍後向雲端服務客戶推出，Trillium的每個晶片處理速度比前一代TPU v5e提升了4.7倍。

除了TPU之外，Google上個月還發布了第一代基於ARM架構的AI CPU Axiom，並且透過CPU和GPU來支援AI工作負載。皮查伊表示，明年Google雲端將成為首批搭載英偉達Blackwell GPU的服務商。

自從OpenAI在2022年底發布ChatGPT起，這場AI軍備禁賽已經開始了一年多時間，除了OpenAI和谷歌，微軟、Meta、華為等全球主要科技巨頭和Anthropic等創業公司都已經投入到這場未來爭奪戰中。而OpenAI和Google則是其中最受矚目的兩大領先者。

雖然OpenAI憑藉著新創公司的靈活專注優勢，屢屢搶佔先發優勢，每次都能領先谷歌一步發布新品，獲得行業一片叫好，但谷歌依然有著自己的獨有優勢所在。作為最早投入AI研究的科技巨頭，Google最大的競爭優勢不僅在於產品的研發，還包括了基礎設施和運算能力，在於龐大的Google應用矩陣與數十億的用戶層級。

在昨天OpenAI再次加塞搶發GPT-4o之後，今天谷歌全面展示了自己在AI領域的全方位優勢，展示了AI為自己全平台服務與產品帶來的體驗提升。今天，AI薩諾斯戴上了手套，打了一個響指。

WONGCW 網誌

記錄生活經驗與點滴

OpenAI再次加塞砸場？谷歌展示自己才是AI薩諾斯

2024-05-15 Comments 0 Comment

相關

發表迴響取消回覆

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

分享此文：

相關

發表迴響取消回覆