I/O 2024:Google吹響通用AI反擊號角
有了24 小時前OpenAI 用GPT-4o 帶來的炸場之後,今年的Google I/O 還未開始,似乎就被架在了一個相當尷尬的地位,即使每個人都知道Google 將發布足夠多的新AI 內容,但有了GPT-4o 的珠玉在前,即使是Google 也不得不面臨巨大的壓力。
![ECA8B0AD9CA1AF06A4385AAA1BEA0E901F1ABF93_size355_w1080_h607.webp](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/729152d683c9f9c.webp?w=640&ssl=1)
這種奇怪的氣氛貫穿了今年Google I/O 主題演講始終,除了CEO 皮查伊演講少了很多自信、多了一些此前少見的不自然感與口誤之外,今年Google I/O 還貢獻了歷年最奇怪的暖場活動,是以AI 工具的翻車為開場:一位從舞台上的茶杯中鑽出的DJ,在台上使用Google 內部開發的一款AI DJ 小工具—— MusicFX DJ,在舞台上現場用隨機產生的關鍵字,創造出一首曲目。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/f77535ac3bb866d.webp?w=640&ssl=1)
雖然創作出的曲調很糟糕,甚至現場效果還有點魔幻,在社交媒體上遭到大量猝不及防的開發者一致吐槽,但好在Google 還是用兩個小時的時間,給這個世界再一次帶來了足夠多的驚喜—— 以及對OpenAI 與微軟的反擊。
開場首先,皮查伊先帶我們回顧了過去一年Google AI 主打產品—— Gemini 的主要進展,如果說全年I/O 全場出現頻率最高的詞是AI 的話,今年毫無意外將變成Gemini;首先是Gemini Advanced 在發布三個月之後就已經獲得了超過一百萬用戶;以及兩個月之前發布、最高支援一百萬Token 上下文識別(通行計算方法中約等於50 萬中文字符)。的Gemini 1.5 Pro,今天起將正式推播全球使用者。
不僅如此,Gemini 1.5 Pro 也從原本的一百萬Token 上下文升級至兩百萬Token 上下文辨識。這意味著在多模態處理中能處理超過三萬行程式碼,或是超過一小時的影片檔。
在介紹了Gemini 本身之後,就到了Gemini 真正的長處—— 應用內整合體驗中,皮查伊先是演示了整合在相冊中的功能,在停車並給車拍了照片之後,當你找不到停車的位置,可以直接問Gemini “我的車在哪裡”,它就能幫你自動識別相關照片中的信息,提示你車停在了哪裡。
這個功能被稱為。 Ask Photos,將於今年正式發售。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/41c0a093d107919.webp?w=640&ssl=1)
在Google 辦公室套件中,如今也迎來了Gemini 更深度的整合,不僅能在Gmail 中產生線上會議紀要、在所有郵件中提取關鍵資訊。還能與Google 表格連動,自動整理郵件中包含的表格文件,甚至是產生資料分析表格。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/8ff80b0617f122b.webp?w=640&ssl=1)
為了提升使用者日常處理工作內容的辦公室效率,Google 也將Gemini 的功能包裝成了一個AI 員工—— AI Teammate,來充當你工作中的一個人工智慧助理,幫你整理各種資訊並藉助大模型來實現更聰明的回饋,例如從郵件中提煉訊息,甚至是會議錄音中的關鍵訊息。
除了辦公室套件之外去年作為探索項目登場的Notebook LM 今年也公佈了新進展:作為Google 生成式AI 直面教育應用場景的項目,這被外界看作是對OpenAI”撞車“最直接的回應。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/bb494cfc9a261d0.webp?w=640&ssl=1)
在現場的演示中,NotebookLM 不僅能很好地充當一個老師的身份、講述一組簡單的物理課程,還能模擬兩個演講者,產生一個類似對話的講解內容。當用戶提問「你能舉個例子嗎」這樣的問題時,即時給出一個準確的答案。讓你能夠更精確地掌握物理原理中的細節。
Google 同時也針對去年發布、在Android 手機上實現畫圈搜尋功能的「Circle to Search」功能加入了更多教育相關的使用場景:現在這個功能已經支持識別畫面中的數學題以及符號公示等複雜的內容。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/06b422bcbf126b9.webp?w=640&ssl=1)
在AI 產業早期,除了OpenAI 之外,還有另一個聚集了業界大量人才的組織—— 那就是如今已經被Google 收購並整合的DeepMind。
但在過去十餘年時間中,DeepMind 長期以一種低調的印象示人:以研究成果定勝負,而不是像OpenAI 管理層一樣,在各種演講中拋頭露面發表言論。
但在今年I/O 上,DeepMind 創始人哈薩比斯第一次出現在Google I/O 舞台上,來給金主“救火”,Alphabet 內部對AI 的緊迫性可見一斑。
這位AI 產業舉足輕重的大牛上台,卻看似輕飄飄地發布了一個針對端側的模型—— Gemini 1.5 Flash,甚至現場觀眾都有些沒反應過來他是在賣什麼關子,直到哈薩比斯說出他們的最終目的— 打造通用強人工智慧。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/4ec85f95eb4b950.webp?w=640&ssl=1)
實現這個目標的具體步驟,就是哈薩比斯介紹的新計畫—— Project Astra,探索通用人工智慧如何在日常生活中為我們提供真正日常生活所必須的幫助。
作為對這個問題的直接回應,哈薩克現場展示了Astra 的一個使用視頻:操作者以智能手機為媒介,讓大模型實時收集環境中的各種信息,並在圍繞著辦公室轉了一圈後突然提問:你記得眼鏡在哪裡嗎」。
在正常的環境中,即使是兩個正常人類之間對話,也可能會忽略掉這些細節,但演示中的AI 卻精準地從眾多環境信息中捕捉到了眼鏡的位置,並給出了正確的方位提示。這種強悍的通用語言與環境理解能力將現場氣氛推向了最高潮,也再一次向外界展示了Deepmind 作為傳統AI 強手實力的冰山一角。
哈薩比斯也特別提到,這些演示項目並非刻意實現、「僅供參考」的演示效果,兩個短片中的所有實現效果都是一次完成。這意味著目前Project Astra 已經能非常流暢地達到這些效果。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/ec346526023253c.webp?w=640&ssl=1)
除了對通用人工智慧的探索之外,哈薩克斯還介紹了Deepmind 在多模態領域的新進展:將在影像、音訊以及視訊三個主要內容領域全方位出擊。分別是能夠產生超過60 秒、畫質為1080p 的影片片段的視覺模型Voe、文生圖模型Imagen 3、以及專業音樂創作者的音樂合成工具Music AI Sandbox。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/fddc1f1438b6f73.webp?w=640&ssl=1)
TPU 硬體的更新也是Google I/O 主題眼鏡中的保留項目,每次伴隨著AI 新技術發布,TPU 作為驅動軟體的硬體引擎都會隨著更新迭代而迭代。
這次主題演講中Google 發布了代號為Trilium 的第六代TPU 硬件,計算能力相比前代提升4.7 倍,預計將在2024 年年底面向用戶推出,本次發布會中出現的Veo、Gemini 1.5 Pro等幾乎所有產品,都是在這些新硬體上計算而來。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/27b6b857784207c.webp?w=640&ssl=1)
Android 也不能免俗,將AI 功能更新作為今年介紹的重點。尤其是Gemini 在Android 系統中更深度的整合。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/d6dfede201e169b.webp?w=640&ssl=1)
其實今年的Android 15 當然也不只有AI 功能,但Google 為了讓AI 功能讓路,在首日的主題演講中介紹的都是Android 15 中與AI 相關的動態,剩餘的內容被擠到了隔天的分會場演講中。
Gemini 作為一個獨立App 在Android 端已經存在一段時間了,這次Google 終於進一步發揮了「主場」優勢,將Gemini 進一步整合進作業系統中:現在在Gemini 對話中產生的映像可以被直接拖曳到其他應用中使用。
這次Gemini 在Android 上的最新進展是Gemini Live,主打使用語音的雙向流暢對話體驗,在對話過程中你甚至可以像現實與真人對話一樣,透過打斷對話、提出新問題的方式來更有效率的溝通。 Google 同時預告基於Project Astra 實現的攝影影片辨識功能也將在今年年內發布。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/83a5a0727f5f014.webp?w=640&ssl=1)
這個功能實現的原理,是將影片內容逐幀拆解並交給Gemini 識別,在效果上實現接近「理解世界」的效果。例如當你不會用某款相機時,用手機鏡頭對準相機並提問,Gemini 就能夠從畫面中識別出相機的型號,並根據你的問題,搜尋相關內容給出使用教學。
另一個重要功能更新是Android 15 中的Gemini 支援了YouTube 影片內容識別,Gemini 在影片播放介面可以直接擷取影片相關的信息,並回答用戶各種關於影片的問題,甚至是產生影片內容摘要。 YouTube 上數十億個影片都可以使用這個功能。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/0e735933772b7c1.webp?w=640&ssl=1)
除了這些連網功能更新,去年發布的、完全基於端側算力實現的Gemini Nano 則是更多本地功能的基礎;基於本地模型實現的功能不僅能更快速地實現諸如畫面內容識別等無障礙功能,還能在更多隱私需求更高的應用場景中,例如這次新發布的基於本地語音模型、透過對話內容,判斷對方是否可能是詐騙電話。
透過Gemini Nano 模型本地即時處理,在檢測到諸如“銀行”“轉賬”等關鍵字眼以及上下文之後,手機的通話界面會彈出一個“這可能是詐騙電話”的提示,並給出諸如“銀行不會要求你透過電話轉帳」這種可能的理由。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/b36cc1c259cdd2f.webp?w=640&ssl=1)
毫無疑問,在智慧型手機端,端側模型的潛力還有巨大的挖掘空間,這次模型本身能力也得到了加強,Gemini Nano 在原本僅支持文本識別的基礎上,將於今年內增加視覺、聽覺與口語的辨識支持。
去年在OpenAI 改變世界之後,Google 也只是被改變的一部分:2023 I/O 中即使充滿了各種AI,也很容易給人一種「湊數」的觀感:以至於「演講中出現了多少次AI 」的惡搞視頻,反而在主題演講結束後,成為社交媒體上被瘋傳最多的內容。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0515/1ab3733510b26b3.webp?w=640&ssl=1)
到了2024,即使OpenAI 還想在復刻一把“偷襲”,但Google 這次的準備顯然更加充足自信,甚至Google 官方也還玩了去年的梗,主動問了觀眾“我們今年說了多少次AI ”?
對於這個問題,皮查伊的回答是將演講的文稿直接扔給Gemini,讓它提取文本中內容來回答,答案是120 次,然後在說出這句話的同時,數字變成了121。
這個小小的幽默其實也揭示了Google 對AI 的開放態度:任何問題都嘗試用AI 來回答。皮查伊也重新強調了Google 在AI 領域的目標」整理世界所有的資訊為你所用“,Google 在軟體側的所有軟體更新幾乎都是在實踐這一目標。
從這一點來講,有著廣泛應用生態與用戶的Google 生態,仍然有著巨大的先手優勢。加上本次I/O 中展示的既有當下就能立即使用到的Gemini 更新,也有類似Project Astra 這樣極具野心的前沿探索項目,一系列組合拳之下,Google 在AI 領域的第一梯隊位置再一次得到了穩固。
至少從這次I/O 我們看到新內容的分量來講,Google 仍然是OpenAI 最強力的競爭對手,即使它曾經短暫地落於下風。