冷眼與嘲諷之後Google的AI大模型翻盤之路
「我認為2025年將至關重要。我認為我們必須意識到這一刻的緊迫性,並需要作為一家公司加快步伐。風險很高。這些都是顛覆性的時刻。在2025年,我們需要堅持不懈地專注於釋放這項技術的優勢並解決真正的用戶問題。
聽起來像是公司生死存亡的時刻,事實是遠沒有到這地步。 Google剛經歷了一個揚眉吐氣的12月,當然揚眉吐氣之前是灰頭喪氣。
而在2023-2024年,能讓Google的命運如此波折的事件,只有當下最受矚目的新賽道-大模型。 Google在大模型的賽場上可謂受盡了冷眼和嘲諷。
首先要說,Google的大模型或人工智慧起步非常早,幾乎是Mag-7中起步最早的,甚至在OpenAI發布了3.5之後,馬上在2023年年初發布了自己的第一代成熟大模型Bard。但幾乎招來的不是讚嘆,而是近乎嘲諷的對待,股價也隨之低迷。直到現在,Google仍然是Mag-7中PE最低的。
作為上個行動網路時代的絕對勝利者,早在2001年就已經開始機器學習研究的Google來說,這是無法容忍的。
01
坎坷的大模式之旅
【1】起大早趕晚集
身為上個行動網路時代絕對的勝利者,Google向來在科技儲備和科技創新上不遜於任何公司。尤其是在深度學習、神經網路這類人工智慧領域,需要絕對比拼字力和演算法的領域,Google一直都處於領導地位。
2001年,Google開始利用機器學習來幫助人們修正關鍵字輸入的錯誤拼字。
2006年,推出基於機器學習的Google翻譯。
2015年,開源機器學習框架TensorFlow推出,使得人工智慧更易於存取、可擴展且高效,由此推薦演算法進入主流行動應用場景。
2016年,DeepMind開發的AlphaGo擊敗世界圍棋冠軍,人工智慧這個曾經出現在科幻作品中的詞彙變成現實。
同年,DeepMind推出了機器學習發明並針對TensorFlow 優化的客製化晶片TPU,這種客製化晶片可以更快、更有針對性地訓練和運行AI模型,2024年12月Google的新一代大模型Gemini2. 0 就是基於第六代TPU訓練得來。
2017年,Google推出了新型神經網路架構Transformer,奠定了生成式AI 系統的基石。
2019年2月,GPT-2正式基於Transformer架構的語言模型,隨後催生了GPT-3.5、GPT 4.0,GPTo1等等。遺憾的是,Google自己的初代大模型反而不是基於Transformer架構。
【2】競爭來的太快太急
為了因應2022年底GPT-3.5的爆紅,2023年2月6日Google發表大模型Bard,3月首批在美國和英國推出。
初代版本的Bard,是基於Google2021年發表的LaMDA(Language Models for Dialog Applications)大模型。這款模型具有多達1370 億個參數,更注重自然對話能力,對於資訊和數據處理的能力不夠強,因此在巴黎的直播發布會中表現不佳,導致Google的股價下跌了8%。
Google內部和媒體紛紛批評和質疑Google的大模型能力。在我們的測試中,也發現和ChatGPT相比,Bard更像是上個時代的產物,對話效果比Apple的Siri好不了多少。
2023年4月10日,Bard的底層模型升級為更強大的通用語言模型PaLM(Pathways Language Model)。和前代LaMDA模型相比,PaLM擁有更強大的語言理解和生成能力,對話過程更為流暢自然。
5月10日,Bard升級為PaLM2大模型,在PaLM的基礎上增加大大提升了邏輯推理能力,來減少對話中的笑話。 Google在這個階段開始了大模型和自身產品的集成,從PaLM2開始大模型已經為多款Google產品提供生成式AI功能,包括Gmail 和Workspace等。
一直到2023年12月,Bard才再次迎来大升级,Google官方给出的表现报告显示Gemini Pro性能表现全面超越GPT-3.5,模型从PaLM切换为GeminiPro。Gemini Pro在文本理解、总结、推理、编码和规划等方面都得到了显著加强。
在整個2023年中,儘管Google不斷迭代模型,但始終並未進入「大模型頂流」行列,甚至應用範圍沒有走出Google自己的生態鏈。要知道彼時已經有不少套殼產品依靠OpenAI的chatgpt開始獲利了。
Google周圍,強敵環伺。 OpenAI佔據大模型絕對的領頭羊第二,Anthropic的Claude每次迭代都能帶來驚喜,並不斷投Amazon等一輪輪融資,大有赶超OpenAI氣勢。 Meta索性將自家大模型開源,劍走偏鋒。
Google自己的基本盤搜尋業務上,又有垂直AI搜尋產品Preplexy爆火,直接改革了搜尋結果這一Google搜尋廣告的重要流量來源。
Google大概很多年沒有感受到這麼強烈的危機感了。大模型競賽就像一場開卷考試,比拼的是演算法、算力和基建,幸好這幾樣Google都不缺。
【3】老牌霸主憑實力趕上
2024年2月8日Bard正式更名為Gemini,Google開始了追趕之旅。
2024年5月14日Gemini 1.5Pro和Gemini1.5Pro,2024年12月6日Gemini發布2.0 Flash。
在迎頭趕上垂直大模型產品之外,Google也拓展了大模型外圍產品,廣受好評的就是NotebookLM。
NotebookLM是2024年9月Google發表了一款AI筆記應用程式。該產品可以對輸入進行理解和摘要,產生一個對談式的音頻內容,堪稱播客製作的先天聖體。 12月份NotebookLM進行了重大升級,包括新外觀、新功能(例如「加入」音訊概覽以與主持人交談的能力)以及高級版本NotebookLM Plus。
我們在測試了兩款由該筆記應用製作的播客節目,談話的嫻熟程度已經超過播客從業者初級水平,AI主持人的音色自然,聊天過程中的不乏由談話內容產生的抑揚頓挫,幾乎無法識別是真人還是AI節目。唯一的缺點就是對內容的理解,過於「AI」化,對輸入內容的挖掘無法跟進時下熱門內容。
但這款AI音訊製作工具帶來的強大效率是真人播客無法比擬的,不僅可以應用在播客製作,還可以應用在論文理解和解讀方面,大大降低了人們對高深內容的閱讀門檻。 Spotify Wrapped 的粉絲們推出一檔Spotify Wrapped AI 播客,該播客完全使用NotebookLM 建置。
多模態方面,2024年2月,Google推出了文生圖模型Imagen 2。但推出後不久,就被用戶發現混淆了真實歷史錯誤而蒙上陰影。隨後進行「回爐再造」直到8月才迭代到Imagen 3。
重生后的Imagen 3模型细节准确性方面得到了增强,并支持多种画面各种风格和更丰富的纹理,文生图像质量得到显著提高。
5月份,Google發布影片生成模型Veo來對抗OpenAI的Sora。
初期Veo主要面向內容創作者,可以支援高清晰度的視頻生成,用戶能夠輕鬆製作分辨率達1080p、時長超過60秒的高品質視頻,還支援多種電影效果的視頻風格。
多家媒體評測發現,儘管Veo在畫質方面細膩度更勝一籌,但影片內容「科幻感」太強,無法做到Sora的現實感,幾乎一眼假。
DeepMind也為天氣預報研發了AI天氣模式GenCast,可以做到比其他天氣預報系統提早15天預報氣象變化,這對農業地區氣象災難預警極為有利。
2024年10月份DeepMind因為蛋白質結構預測模型AlphaFold順便拿了一個諾比爾化學獎,儘管是和David Baker均分的。無論是天氣或生物醫藥領域,都顯示GoogleAI在科研領域滲透遠超OpenAI等AI新秀。
【4】豐收的月份
經過2024年一年的煎熬和打磨,Google找到了自己的節奏,在24年最後一個月份迎來了豐收。不僅以Gemini 2.0打破了OpenAI連續12天產品發表會的連續劇,更是以量子晶片Willow證明了自己在科技界不可撼動的地位。
12月11日Gemini 2.0發布前,Google已經「不引人注意」地發布了gemini-exp-1206模型。這是一款實驗性模型,甫已發布就在小範圍內成為了多個LLM評分榜單的top,甚至超過自家後來發布的2.0 flash。預計這個版本的模型會是未來更先進模型的測試版。
更轟動的當然是12月11日的Gemini 2.0 Flash,從“flash”這個詞可以看出,大概率這還不是Gemini 2.0的完整版,但目前釋放出的功能就足以幫Google拿回技術引領者地位。
其強大之處不僅在於強大的推理能力,更在於一步到位的多模態支援能力。
這點和OpenAI相比就良心很多,說實話這兩年OpenAI的發布有點像評估的擠牙膏,每隔一段時間就發布一款模型,能力上絕對高於上一代,但提高的不多,對於多模態的支持更是相當滯後。
Gemini 2.0 Flash比上一代的推理能力更強,對應速度更快。 Google官方稱,2.0 Flash 在關鍵基準測試中甚至比1.5 Pro 更快,速度是1.5 Pro 的兩倍。
2.0 Flash作為原生多模態模型,可支援支援影像、視訊和音訊等多種資訊模態的輸入與輸出。還可以原生呼叫Google 搜尋、程式碼執行等工具以及第三方使用者定義函數。尤其是在數學運算、程式設計等方面,lmarena ai給出的評測結果是力壓OpenAI 的o1-preview和o1-mini。
除了性能和多模態能力的提升外,Gemini 2.0 Flash也在積極推進AI代理的產品形態演進和應用,伴隨這次模型發布Google還推出了一系列相關功能,包括對多模態人工智能助手Project Astra的更新,推出了瀏覽器助手Project Mariner和程式碼助手Jules。
人工智慧助理Project Astra最早於2024年5月推出,用戶可藉助相機、麥克風等連接埠和AI互動,用來進行物件辨識、語音訊息互動等操作。更新後的Project Astra增加了對多語言、口音和生僻詞的支援。
同時和Google產品生態進行了更好的融合,借助Project Astra用戶可以使用Google的搜尋、Lens和地圖產品,增加了上下文記憶功能,可以擁有長達10分鐘的對話記憶,語音延遲方面也有了很大的改善。
現階段的Project Mariner以一款實驗性質的瀏覽器擴展形態存在,該拓展可以理解當前頁面上的像素、文本、代碼、圖像和表單等元素,並根據用戶的指令輸入完成特定的任務,如下單購物、填寫表單、瀏覽關閉等操作。
Jules是一款為開發者打造的程式碼助理,目前已整合到GitHub 工作流程中,協助開發者進行程式碼分析與指導。
這次發布也推出了二代的影片和影像生成模型,Veo 2 和Imagen 3。視頻大模型Veo2,基於對現實世界的物理有了更好的理解——因此它可以製作出非常高質量的視頻,整體上細節和真實感都有所提高。
以及為研究人員打造的研究工具Deep Research,它直接使用高級推理模式幫助研究人員進行研究主題的探索和編寫研究報告,根據筆者在多個社媒論壇潛水發現不僅各類學科的學生、教師群體第一時間已經使用上了Deep Research,某些從事複雜技術工作的企事業員工也正常嘗試將其作為大模型的首選產品。
可以說這次發表會將Google帶回了人工智慧超一流行當,取得了大模型競賽階段性的全方位的勝利。更重要的是,借助其產品生態鏈完整的優勢,Google有能力在AI大模型競賽的下一個賽場-AI Agent研發和應用上比其他廠商走的更遠。
Google的在大模型領域的領先不僅包含其「大模型」產品本身的效能、多模態能力領先,更包含Google在模型晶片、模型訓練平台和下游應用場景的全方位覆蓋。
隨著2.0flash模型的發布,其背後的核心硬體也浮出水面——第六代TPUTrillium。 Gemini2.0的訓練和推理100%由此晶片支援。
TrilliumTPU是Google雲端AI超級電腦的關鍵元件,這是一個突破性的超級電腦架構,它採用效能最佳化的硬體、開放式軟體、領先的ML框架和靈活的消費模式的整合系統。
與上一代TPU v5e相比,TrilliumTPU可將密集型LLM(如Llama-2-70b和gpt3-175b)的訓練速度提高高達4倍,將MoE模型的訓練速度提高高達3.8倍。主機動態隨機存取記憶體(DRAM)是v5e的3倍,有助於最大限度地提高效能和規模吞吐量。
現在Trillium已經走向實際應用階段,任何廠商都可以購買來建造自己的大模型產品。
但面對NVIDIA的強大競爭壓力,Trillium目前只取得了參數層面的領先,以及一個成功的大模型案例,其與上下游硬體的兼容能力和業界的接受度還需要時間的檢驗。
02
谷歌的優勢與隱憂
【1】優勢:生態與金錢
一直以來Google都是個“愛折騰”的公司,最為著名的就是曾經的“Google20%時間政策”,允許Google員工每周可以花費20%的工作時間開展自己感興趣的項目。
在類似的鼓勵創新的企業氛圍下,Google內部誕生了大量大大小小的項目,儘管大部分都悄然下線,但其中也誕生了不少至今仍帶給Google滾滾財源的營收產品,據說Gmail 、Adsense就是這項政策的產物。
這項政策能夠執行至今,都說明Google是個鼓勵創新的企業,這是新技術和新產品的溫床。
除了鼓勵創新,Google在算力、雲端服務方面的基礎建設能力和技術架構、人才儲備是其他垂直廠商和Meta、Amazon等大公司短時間無法追趕的。
除了發展大模型所必須的軟硬體條件,下游應用生態的比拼中Google也是一枝獨秀。 Google自己的影片平台Youtube天然就是多模態最佳應用場景、Google的搜尋已經上線了AI Overview來應對Preplexity AI的追趕。 Google的無人駕駛平台Waymo,未來也未必不能應用語音模型產品。
豐富的產品生態,使得Google可以嘗試AI Agent、AI硬體、機器人多個方向的大模型應用。更重要的,Google有錢。
根據第三季財報,Google當季營收883 億美元,年增幅達16%,淨利263億美元,年增35%。 Google雲端服務營收114億美元,年增35%。第三季實現了176 億美元的自由現金流,季末現金儲備達到了930億美元。
經過兩年的大模型競賽,Google依然手握近千億美元現金。這樣大的現金儲備,什麼算力、晶片、人才問題還會是問題嗎?
Google幾乎具備大模型從0到1,再到100以至於工業級應用所需的軟硬體條件。只要管理階層不再想2023年初那樣亂了節奏,大模型為Google的營收和股價貢獻力量是就是不遠的現實。
【2】隱憂:反壟斷風險
Google的股價偏低,主要原因就是反壟斷官司可能導致的業務被拆分的風險。最新的反壟斷審判中Google落敗之後,為Google核心業務的前景蒙上一層陰影。
美國司法部(DOJ)要求Google出售Chrome瀏覽器,解除與蘋果等公司達成的搜尋引擎預設位置的協議,甚至未來可能要求出售Android作業系統。
這一系列要求對於Google最為核心的搜尋業務無疑會造成巨大的影響,無他這幾項調整關係到搜尋的主要流量入口,沒有這幾個入口Google搜尋的市場佔有率勢必會受到影響,進而影響到搜尋廣告的收入。出售Android作業系統則可能會影響Google的行動裝置應用生態完整性。
為了回應司法部的要求,Google提出數項針對性瀏覽器協議、Android廠商的Google商店和瀏覽器改為非獨佔性質,或者是搜尋的預設設定進行年度評定來減少公眾對其「壟斷性」地位的認定。
近期日本公平交易委員會也做出了Google搜尋違反日本《壟斷禁止法》的判決,這意味著未來Google日本的業務也會受到影響。甚至由此引發其他國家也會陸續對Google做出反壟斷相關的判決。
樹大招風,曾經幫助Google搜尋崛起的因素似乎開始出現不穩定的波動,Google面對內外強大的競爭對手和核心業務的多重打擊,很是需要一個穩定強硬的管理層。毫無怪乎桑達爾·皮查伊內部公開說,2025年風險很高,Google到了緊迫性時刻。
Google正在逐漸奪回大模型競賽的行業關注度和開發者認同,反壟斷大錘還尚未真正落下,Google獲得了一個難得的發展窗口來在新的技術革新潮流中暫時站穩腳跟,為下一個人工智慧時代真正來臨前做好準備。