Google在I/O 2024開發者大會主題演講上足足喊了120次AI
從北京時間週三凌晨1點開始,Google在山景城總部附近的海岸線圓形劇場,舉辦了長達兩個小時的年度I/O開發者大會Keynote演講。與預期一致,Google的這場發表會基本上是在談AI、AI、AI、AI和AI。根據發表會最後的官方統計,整場Keynote的演講稿裡總共提了120次AI。而且這只統計了講稿,實際上的數量還會更多。
在一大堆更新和新發布的功能中,也有許多具有記憶點的產品。例如從本週開始,Google搜尋引擎將在美國推出「AI概覽」(AI Overviews)的功能,搜尋引擎將直接歸納總結搜尋結果。同時Google搜尋也將具備多步驟推理能力,可以一次處理帶有多個限制條件的長問題,並支援「拍影片」搜尋解決方案的新搜尋形式。
另外以上下文窗口「長」聞名的Gemini 1.5 Pro大模型,在今年稍後將會把100萬Tokens的窗口,進一步擴大至200萬Tokens,拓展同步處理多模態資訊的邊界。而對於一些需要快速回應的場景,Google也推出了Gemini 1.5 Flash模型。今年2月剛問世的Gemma開源模型,也將在下個月迎來參數量更大的Gemma 2。在多模態領域,Google也發布了文生圖工具Imagen 3、與Youtube&音樂家合作的“AI音樂沙盒”,以及最新的視頻生成模型Veo。而多模態Gemini Nano模型也將在今年稍後登陸Pixel手機,這是在本地運行的機載模型。
值得一提的是,Google的發表會上也有一些與昨日OpenAI發表會「雷同」的地方──即時AI助理。從今年夏天開始,Gemini也將支援語音即時交互,同時今年稍後也將上線即時視訊互動。未來幾個月內,Google也將推出類似GPTs的自訂AI助理功能,稱為Gems,能夠與整套「Google全家桶」連結。
硬體方面,Google宣布了第六代TPU晶片Trillium,並透露能夠在明年初用上英偉達最新的Blackwell架構GPU。另外,液冷、光纜等中國股民可能會感興趣的題材也在發表會上出現。
—-全場發布會回顧—-
發表會開始,Alphabet&GoogleCEO桑達爾·皮查伊登上舞台。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/59/w550h309/20240515/0ad1-34283aa5f1ed7ce05edcd12933f8fd88.jpg?w=640&ssl=1)
皮查伊表示,現在已經有超過150萬名開發者正在使用Google的人工智慧Gemini,今天將展示一系列有關搜尋、圖片、工作套件、Android系統等等與人工智慧相關的案例。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/84/w550h334/20240515/4dd8-25d796cd2af24c8f5367a3685dc830c5.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/82/w550h332/20240515/f6b9-f0018baaab582250c7677979b073b001.jpg?w=640&ssl=1)
皮查伊宣布,能夠總結Google搜尋引擎結果的「AI概覽」(AI Overviews)功能,將於本週在美國推出。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/fcc3-860c7e9e83534223eb1619d4acf4ce18.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/44/w550h294/20240515/c0a9-ca14c1849218bb471dcf69a5300a3d02.jpg?w=640&ssl=1)
基於Gemini支持,Google圖片(Google Photos)將支持用戶存儲圖片的AI搜索,例如“告訴我,我的車牌號碼是多少?”——這個名為
Ask Photos的功能將於今年夏天推出。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/45/w550h295/20240515/6361-932c3e749c896be6024267492c48de17.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/38/w550h288/20240515/d7cc-48b8fe784a9769ee4662d81b1d8d96c5.jpg?w=640&ssl=1)
皮查伊宣布,最新版本的Gemini 1.5 Pro(在多項核心功能方面均較最初發布版本有所提高)現在向全球所有開發者開放。從今天開始,支援100萬tokens上下文視窗的Gemini 1.5 Pro將在Gemini Advanced功能下對使用者開放,支援35種語言。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/1ef2-730beec7284402bfd0083221d56f1087.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/47/w550h297/20240515/d778-66ac22e9e09ebec7d40f558b6df73184.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/92ea-74adf9962d55e82edd1dbbb970a90936.jpg?w=640&ssl=1)
Google同時為開發者推出支援200萬tokens的Gemini 1.5 Pro模型的預覽,並表示最終的目標將是「無限上下文」。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/49/w550h299/20240515/38a8-feaa86844eb61dc3cdd0109068e05bf5.jpg?w=640&ssl=1)
GoogleAI業務總負責人、DeepMind的執行長傑米斯·哈薩比斯登台,宣布推出
Gemini 1.5 Flash大機型。這個模型兼具速度與效率,和多模態推理能力,以及長達100萬tokens的上下文視窗。開發者將可申請體驗200萬tokens的上下文視窗的Gemini1.5Flash。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/41/w550h291/20240515/d3e3-2e00eaee7e4aadd9643bd7e4affbf2e3.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/52/w550h302/20240515/c6db-0cc67fead3cf0838babcde2b0cea4bde.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/50/w550h300/20240515/8858-d6f35dc5ece5ce32d8741b210c048f08.jpg?w=640&ssl=1)
Google展示「未來的人工智慧助理」—名為「Astra」的專案。哈薩比斯表示,這樣的AI助理需要像人類一樣理解這個動態且複雜的世界。需要記得住它所看到的東西,這樣才能理解對話並付諸行動。同時它也得能積極主動接受教導,以及自然無延遲地進行溝通。在示範影片中,Google的AI助理能夠透過攝影機視頻,辨識出「什麼東西能發出聲音」、「現在身處何地」等指令。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/51/w550h301/20240515/53b8-658cc569644c7c7835630f06666b8b96.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/dd01-48b247c665610c1f7d0df6a024e55c00.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/7383-c6943356a8db63f171e2e8693d8e799d.jpg?w=640&ssl=1)
Google宣布了一系列與圖像、音樂、影片相關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的“AI音樂沙盒”,以及最新的視頻生成模型Veo。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/49/w550h299/20240515/b6b9-9f60f9939fbb463d9492f46308a6af1f.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/53/w550h303/20240515/11db-eb11fc1501b868d127a260f918defd4d.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/3c2e-53e41572bc53b3562b16a0cc6f2eb239.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/40/w550h290/20240515/d502-c7052542b67dc76480d68665728bf085.jpg?w=640&ssl=1)
其中最受關注的影片生成模型Veo,能夠根據文字、圖片和影片的提示,產生高品質1080p影片。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/47/w550h297/20240515/3e7c-ef572b7c3f62836a1e4b4a2ee98b1f78.jpg?w=640&ssl=1)
哈薩克離場,皮查伊重回舞台,發表第六代TPU晶片Trillium,較上一代晶片的算力表現翻4.7倍,雲端用戶從今年下半年開始可以用上新晶片。同時Google雲端將在2025年初,用上英偉達的最新Blackwell架構GPU。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/52/w550h302/20240515/6e0a-e95830d715fc16e5bf14fedca89640d6.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/47/w550h297/20240515/b332-7d2aa9c6c302f87a2c52bdc0d23d9d90.jpg?w=640&ssl=1)
皮查伊開始介紹自家的AI超級計算機,比起用戶自己買相同的硬體和晶片,Google的架構能使得效能翻倍,其中有部分功勞來自於液冷系統。皮查伊表示,Google部署液冷系統的資料中心已經達到1GW,而且還在持續成長中。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/51/w550h301/20240515/ffe7-03ffaade7af71e4449827fb4ae6e4d21.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/52/w550h302/20240515/fbd8-01d1f74434957966a4d38c3b95fcfbb3.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/45/w550h295/20240515/b35b-bb19865eb3731d693b66dda67d0b8bb6.jpg?w=640&ssl=1)
皮查伊表示,Google投資了200萬英里的地面和海底光纖,比第二名的雲端服務商翻了十倍。
液冷、光纜,應該都是股民會感興趣的東西。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/23d2-72662dc2e6bf9fa49bdfc0573788b032.jpg?w=640&ssl=1)
Google搜尋業務負責人Liz Reid開始具體介紹AI Overviews功能。 Reid表示,在進行搜尋時,搜素引擎具備多步驟推理的能力,例如尋找瑜珈教室,同時展示新手優惠報價,和距離特定位置的步行時間。這個AI搜尋引擎助手,還能介紹食譜、安排行程,以及接受影片形式的提問(例如影片中的相機怎麼使用)。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/52/w550h302/20240515/2618-649c54bb6229170278663e8f08d7f15f.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/cbc3-1b53a88fd59cd7a3cf90cb36d475a341.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/49/w550h299/20240515/997e-17e7ca58e957579a9966119a65196326.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/5fb9-d5d9451fb9bfb48b1e4bae0a7cc783f5.jpg?w=640&ssl=1)
在辦公室套件Workspace方面,Google將逐步推出總結、郵件Q&A,以及智慧回覆等功能。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/30/w550h280/20240515/16c0-1dd4941cff200a8fc5c2cf274869b37c.jpg?w=640&ssl=1)
GoogleGemini總經理Sissie Hsiao介紹了Gemini App的更新。
與週一的OpenAI一樣,從今年夏天開始,Gemini也將支援語音即時交互,同時今年稍後也將上線即時視訊互動功能。未來幾個月內,Google也將推出類似GPTs的自訂AI助理功能,稱為Gems。這位AI助理的亮點,將是能與「Google全家桶」互動。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/50/w550h300/20240515/2e93-2e5b34fed90343c06209b415562be302.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/46/w550h296/20240515/6f4b-77facadfb2648bcf301fe989c94e242a.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/47/w550h297/20240515/f09e-0a0c58e31e295be219bef9d549119af7.jpg?w=640&ssl=1)
Hsiao再次強調了Gemini的長上下文視窗——能夠一次處理整整1500頁的文件,或3萬行程式碼、1小時的影片。不同的載體也能混同一起提交給聊天機器人。她再次強調,今年稍後上下文窗口將翻倍至200萬Tokens。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/9244-2fc426c92a40c30600b8fcc425f28d9a.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/3375-922a4302832be66559d9c7adf00bf863.jpg?w=640&ssl=1)
Android生態系統的負責人Sameer Samat登台,他將討論今年Android系統實現的“三大突破”,分別是“畫圈搜索”、Gemini手機AI助手,第三是在手機本地運行的AI。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/55/w550h305/20240515/90d9-3a018fcc69bd4b6ba1ed9a37e6deddb1.jpg?w=640&ssl=1)
Google表示,今年晚些時候,能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機,意味著手機將能透過文字、圖片、影片、音頻,理解用戶的世界。舉例而言,在聽到「幫你把錢轉到安全帳戶」這樣的詐騙電話時,手機會自動彈出詐騙警告。整個過程都在本地運行,不會引發隱私洩漏。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/58/w550h308/20240515/f94f-ecd97e48fdcfe8573f646d754a22490e.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/48/w550h298/20240515/6e09-67eba0266d5e5bf6d9e1dee0046997dd.jpg?w=640&ssl=1)
Google揭露大模型API的最新定價,其中Gemini 1.5 Pro定價為7美元/100萬Tokens,12.8K上下文視窗的版本定價為3.5美元/100萬Tokens;而Gemini 1.5的起售價為0.35美元/100萬Tokens。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/62/w550h312/20240515/c0c4-caad0535b47c7492f0091aa5c4ea5392.jpg?w=640&ssl=1)
對於今年二月剛推出的輕量級開源模式Gemma,Google宣布推出視訊語言模式PaliGemma,並將在6月推出Gemma 2。相較於第一代模型只有20億和70億的參數量,第二代開源Gemma的參數量能達到270億。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/57/w550h307/20240515/96f7-3f8e0d98fbf92886f11f8761d668aebb.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/58/w550h308/20240515/23e3-0fde5ea920e33ef232f926202eee0343.jpg?w=640&ssl=1)
作為發布會最後的彩蛋,GoogleCEO皮查伊最後用Gemini總結了今天的發布會稿子裡總共提了多少次AI——120次。當然,這並不包括皮查伊問完這個問題後,又喚了幾遍AI。
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/18/w550h268/20240515/01f0-0a4e459002f2f949d3ea3f91d8096dff.jpg?w=640&ssl=1)
![](https://i0.wp.com/n.sinaimg.cn/finance/crawl/54/w550h304/20240515/bb73-fc5989ebf4587e4839ff913c684cda04.jpg?w=640&ssl=1)