Google在I/O 2024開發者大會主題演講上足足喊了120次AI

2024-05-15 Comments 0 Comment

從北京時間週三凌晨1點開始，Google在山景城總部附近的海岸線圓形劇場，舉辦了長達兩個小時的年度I/O開發者大會Keynote演講。與預期一致，Google的這場發表會基本上是在談AI、AI、AI、AI和AI。根據發表會最後的官方統計，整場Keynote的演講稿裡總共提了120次AI。而且這只統計了講稿，實際上的數量還會更多。

在一大堆更新和新發布的功能中，也有許多具有記憶點的產品。例如從本週開始，Google搜尋引擎將在美國推出「AI概覽」（AI Overviews）的功能，搜尋引擎將直接歸納總結搜尋結果。同時Google搜尋也將具備多步驟推理能力，可以一次處理帶有多個限制條件的長問題，並支援「拍影片」搜尋解決方案的新搜尋形式。

另外以上下文窗口「長」聞名的Gemini 1.5 Pro大模型，在今年稍後將會把100萬Tokens的窗口，進一步擴大至200萬Tokens，拓展同步處理多模態資訊的邊界。而對於一些需要快速回應的場景，Google也推出了Gemini 1.5 Flash模型。今年2月剛問世的Gemma開源模型，也將在下個月迎來參數量更大的Gemma 2。在多模態領域，Google也發布了文生圖工具Imagen 3、與Youtube&音樂家合作的“AI音樂沙盒”，以及最新的視頻生成模型Veo。而多模態Gemini Nano模型也將在今年稍後登陸Pixel手機，這是在本地運行的機載模型。

值得一提的是，Google的發表會上也有一些與昨日OpenAI發表會「雷同」的地方──即時AI助理。從今年夏天開始，Gemini也將支援語音即時交互，同時今年稍後也將上線即時視訊互動。未來幾個月內，Google也將推出類似GPTs的自訂AI助理功能，稱為Gems，能夠與整套「Google全家桶」連結。

硬體方面，Google宣布了第六代TPU晶片Trillium，並透露能夠在明年初用上英偉達最新的Blackwell架構GPU。另外，液冷、光纜等中國股民可能會感興趣的題材也在發表會上出現。

—-全場發布會回顧—-

發表會開始，Alphabet&GoogleCEO桑達爾·皮查伊登上舞台。

皮查伊表示，現在已經有超過150萬名開發者正在使用Google的人工智慧Gemini，今天將展示一系列有關搜尋、圖片、工作套件、Android系統等等與人工智慧相關的案例。

皮查伊宣布，能夠總結Google搜尋引擎結果的「AI概覽」（AI Overviews）功能，將於本週在美國推出。

基於Gemini支持，Google圖片（Google Photos）將支持用戶存儲圖片的AI搜索，例如“告訴我，我的車牌號碼是多少？”——這個名為

Ask Photos的功能將於今年夏天推出。

皮查伊宣布，最新版本的Gemini 1.5 Pro（在多項核心功能方面均較最初發布版本有所提高）現在向全球所有開發者開放。從今天開始，支援100萬tokens上下文視窗的Gemini 1.5 Pro將在Gemini Advanced功能下對使用者開放，支援35種語言。

Google同時為開發者推出支援200萬tokens的Gemini 1.5 Pro模型的預覽，並表示最終的目標將是「無限上下文」。

GoogleAI業務總負責人、DeepMind的執行長傑米斯·哈薩比斯登台，宣布推出

Gemini 1.5 Flash大機型。這個模型兼具速度與效率，和多模態推理能力，以及長達100萬tokens的上下文視窗。開發者將可申請體驗200萬tokens的上下文視窗的Gemini1.5Flash。

Google展示「未來的人工智慧助理」—名為「Astra」的專案。哈薩比斯表示，這樣的AI助理需要像人類一樣理解這個動態且複雜的世界。需要記得住它所看到的東西，這樣才能理解對話並付諸行動。同時它也得能積極主動接受教導，以及自然無延遲地進行溝通。在示範影片中，Google的AI助理能夠透過攝影機視頻，辨識出「什麼東西能發出聲音」、「現在身處何地」等指令。

Google宣布了一系列與圖像、音樂、影片相關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的“AI音樂沙盒”，以及最新的視頻生成模型Veo。

其中最受關注的影片生成模型Veo，能夠根據文字、圖片和影片的提示，產生高品質1080p影片。

哈薩克離場，皮查伊重回舞台，發表第六代TPU晶片Trillium，較上一代晶片的算力表現翻4.7倍，雲端用戶從今年下半年開始可以用上新晶片。同時Google雲端將在2025年初，用上英偉達的最新Blackwell架構GPU。

皮查伊開始介紹自家的AI超級計算機，比起用戶自己買相同的硬體和晶片，Google的架構能使得效能翻倍，其中有部分功勞來自於液冷系統。皮查伊表示，Google部署液冷系統的資料中心已經達到1GW，而且還在持續成長中。

皮查伊表示，Google投資了200萬英里的地面和海底光纖，比第二名的雲端服務商翻了十倍。

液冷、光纜，應該都是股民會感興趣的東西。

Google搜尋業務負責人Liz Reid開始具體介紹AI Overviews功能。 Reid表示，在進行搜尋時，搜素引擎具備多步驟推理的能力，例如尋找瑜珈教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個AI搜尋引擎助手，還能介紹食譜、安排行程，以及接受影片形式的提問（例如影片中的相機怎麼使用）。

在辦公室套件Workspace方面，Google將逐步推出總結、郵件Q&A，以及智慧回覆等功能。

GoogleGemini總經理Sissie Hsiao介紹了Gemini App的更新。

與週一的OpenAI一樣，從今年夏天開始，Gemini也將支援語音即時交互，同時今年稍後也將上線即時視訊互動功能。未來幾個月內，Google也將推出類似GPTs的自訂AI助理功能，稱為Gems。這位AI助理的亮點，將是能與「Google全家桶」互動。

Hsiao再次強調了Gemini的長上下文視窗——能夠一次處理整整1500頁的文件，或3萬行程式碼、1小時的影片。不同的載體也能混同一起提交給聊天機器人。她再次強調，今年稍後上下文窗口將翻倍至200萬Tokens。

Android生態系統的負責人Sameer Samat登台，他將討論今年Android系統實現的“三大突破”，分別是“畫圈搜索”、Gemini手機AI助手，第三是在手機本地運行的AI。

Google表示，今年晚些時候，能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機，意味著手機將能透過文字、圖片、影片、音頻，理解用戶的世界。舉例而言，在聽到「幫你把錢轉到安全帳戶」這樣的詐騙電話時，手機會自動彈出詐騙警告。整個過程都在本地運行，不會引發隱私洩漏。

Google揭露大模型API的最新定價，其中Gemini 1.5 Pro定價為7美元/100萬Tokens，12.8K上下文視窗的版本定價為3.5美元/100萬Tokens；而Gemini 1.5的起售價為0.35美元/100萬Tokens。

對於今年二月剛推出的輕量級開源模式Gemma，Google宣布推出視訊語言模式PaliGemma，並將在6月推出Gemma 2。相較於第一代模型只有20億和70億的參數量，第二代開源Gemma的參數量能達到270億。

作為發布會最後的彩蛋，GoogleCEO皮查伊最後用Gemini總結了今天的發布會稿子裡總共提了多少次AI——120次。當然，這並不包括皮查伊問完這個問題後，又喚了幾遍AI。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Google在I/O 2024開發者大會主題演講上足足喊了120次AI

2024-05-15 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆