DeepMind聯手復仇Jeff Dean、Hassabis萬字長文總結2023絕地反擊
Google DeepMind,交卷!Jeff Dean和Hassabis聯手發文,一同回顧了Google Research和Google DeepMind在2023年的完整成果。這一年開年,比起風靡全球的ChatGPT,Google看起來輸慘了。當時,數不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度瞬間飆升至前所未有的高度。
4月,陷入被動的Google放出終極大殺招:Google大腦與DeepMind正式合併!「王不見王」的兩大部門驚人合體,Jeff Dean和Hassabis終於聯手。
5月,Google在I/O大會上一雪前恥。全新的PaLM 2反超GPT-4,辦公全家桶炸裂升級,Bard直接史詩級進化。
12月,Google深夜放出了復仇殺器Gemini,最強原生多模態直接碾壓了GPT-4。雖然在產品demo上有加工製作的成分,但不可否認,Google已經把全世界的多模態研究推到前所未有的高度。
讓我們來看看,Google的諸位神人們是怎樣團結在一起,打響23年的復仇之戰的。
產品和技術的進步
這一年,生成式AI正式進入了大爆發。
2月,Google緊急推出了Bard,慢於OpenAI兩個月推出了自己的AI聊天機器人。
5月,Google在I/O大會上宣布了累積數月和數年的研究和成果,包括語言模型PaLM 2。它整合了計算最佳化擴展、改進的資料集組合和模型架構,即使在很高階的推理任務中,表現也很出色。
在針對不同目的對PaLM 2進行微調和指令調整後,Google將其整合到了眾多Google產品和功能中,包括:
1. Bard
現在,Bard能支援40多種語言和230多個國家和地區,在日常使用的Google工具(如Gmail、Google地圖、YouTube)中,都可以使用Bard查找資訊。
2. 搜尋生成體驗(SGE)
它用LLM重新構想如何組織資訊以及如何幫助用戶瀏覽訊息,為Google的核心搜尋產品創建了更流暢的對話式互動模型。
3. MusicLM
這個由AudioLM和MuLAN提供支援的文字到音樂模型,可以從文字、哼唱、圖像或影片、音樂伴奏、歌曲中製作音樂。
4. Duet AI
Google Workspace中的Duet AI可以幫助使用者創作文字、建立圖像、分析電子表格、起草和總結電子郵件和聊天訊息,總結會議等。Google Cloud中的Duet AI可以幫助使用者編寫、部署、擴展和監控應用,以及識別和解決網路安全威脅。
文章網址:https://blog.google/technology/developers/google-io-2023-100-announcements/
繼去年發布文字到圖像生成模型Imagen之後,今年6月,Google又發布了Imagen Editor,它提供了使用區域掩碼和自然語言提示編輯生成圖像的功能,從而對模型輸出進行更精確的控制。
隨後,Google又發布了Imagen 2,它透過專門的影像美學模型改進了輸出,這個影像美學模型參考了人類對良好照明、取景、曝光和清晰度的偏好。
10月,Google推出了Google搜尋的一項新功能,幫助使用者練習口語、提升語言能力。
實現這項功能的關鍵技術,就是和Google翻譯團隊合作開發的全新深度學習模型,名為Deep Aligner。
與基於隱馬可夫模型(HMM)的對齊方法相比,這個單一的新模型極大地提高了所有測試語言對的對齊質量,將平均對齊錯誤率從25%降低到5%。
11月,Google與YouTube合作發布了Lyria,這是Google迄今為止最先進的AI音樂生成模型。
12月,Google推出了Gemini,這是Google最強大、最通用的AI模型。
從一開始,Gemini就被建構為跨文字、音訊、影像和視訊的多模態模型。
Gemini有三種不同尺寸,Nano、Pro和Ultra。Nano是最小、最高效的模型,用於為Pixel等產品提供設備端體驗。Pro模型功能強大,最適合跨任務擴展。Ultra模型是最大、性能最強的模型,適用於高度複雜的任務。
根據Gemini模型的技術報告,Gemini Ultra的性能超過了32個廣泛使用的學術基準中的30個最新結果。
Gemini Ultra的得分為90.04%,是第一款在MMLU上表現優於人類專家的模型,並在新的MMMU基準測試中獲得了59.4%的最高分。
在AlphaCode的基礎上,Google推出了由Gemini的專用版本支援的AlphaCode 2,這是第一個在程式設計競賽中取得中位數水準表現的AI系統。
跟原始AlphaCode相比,AlphaCode 2解決的問題為1.7倍以上,表現優於85%的參賽者。
同時,Gemini Pro模型的祝福讓Bard也獲得了大升級,理解、總結、推理、編碼和規劃能力都大大提升。
在八項基準測試中的六項中,Gemini Pro的表現都優於GPT-3.5,包括LLM的關鍵標準之一MMLU和衡量小學數學推理的GSM8K。
明年初,Gemini Ultra也會引進Bard,屆時必將引發全新的尖端AI體驗。
而且,Gemini Pro也可用於Vertex AI,這是Google Cloud的端到端AI 平台,使開發人員能夠建立處理文字、程式碼、圖像和視訊資訊的應用程式。
應用程序,可以處理文字、程式碼、圖像和視訊訊息的應用程式。Gemini Pro 也於12 月在AI Studio 中推出。
可以看到,Gemini能夠做到的事情包括但不限於——
解鎖科學文獻中的見解。
擅長競賽程式設計。
處理和理解原始音訊。
Gemini可以回答為什麼這菜還沒炒熟:因為蛋是生的
解釋數學和物理中的推理。
了解使用者意圖,提供客製化體驗。
機器學習/人工智慧
除了在產品和技術方面的進步外,這一年Google也在機器學習和AI研究的更廣泛領域,取得了許多重要進展。
如今最先進的機器學習模型,核心架構就是Google研究人員在2017年開發的Transformer架構。
起初,Transformer是為語言而開發的,但如今,它已被證明在電腦視覺、音訊、基因組學、蛋白質折疊等各種領域都有極大作用。
今年Google在擴展視覺Transformer的工作,在各種視覺任務中都達到了SOTA,也能用來打造功能更強大的機器人。
擴展模型的多功能性,需要執行更高層次和多步驟推理的能力。
今年,Google透過幾個研究接近了這個目標。
例如,演算法提示(algorithmic prompting)的新方法,透過示範一系列演算法步驟來教導語言模型推理,然後模型可以將其應用於新的上下文中。
這種方法將中學數學基準的準確率從25.9%提高到了61.1%。
透過提供演算法提示,我們可以透過上下文學習來教模型算術規則
在視覺問答領域,Google與UC伯克利的研究人員合作,透過將視覺模型與語言模型相結合,使其更好地回答複雜的視覺問題——“馬車在馬的右邊嗎?”
CodeVQA方法的圖示。首先,大語言模型產生一個Python程序,該程序呼叫表示問題的可視化函數。在此範例中,使用簡單的VQA方法來回答問題的一部分,並使用物件定位器來尋找所提及物件的位置。然後,程式透過組合這些函數的輸出來產生原始問題的答案
其中語言模型被訓練為透過合成程序執行多步驟推理,來回答視覺問題。
為了訓練用於軟體開發的大型機器學習模型,Google開發了一個名為DIDACT的通用模型。
它了解軟體開發生命週期的方方面面,可以自動產生程式碼審查註解、回應程式碼審查註解、為程式碼片段提出效能改進建議、修復程式碼以回應編譯錯誤等等。
在與Google地圖團隊的多年合作中,Google擴展了逆強化學習,並將其應用於為超過10億用戶改進路線建議的世界級問題。
使用RHIP逆增強學習策略時,Google地圖相對於現有基準的路線匹配率有所改進
這項工作最終使全球路線匹配率相對提高了16-24%,確保路線更符合用戶偏好。
Google也持續研究提升機器學習模型推理效能的技術。
在研究神經網路中剪枝連接的計算友好方法時,團隊設計出一種近似演算法,來解決計算上難以解決的最佳子集選擇問題,該演算法能夠從圖像分類模型中修剪70%的邊緣,並且仍然保留原始模型的幾乎所有精度。
原始網絡與修剪後的網絡
在加速設備端擴散模型的過程中,Google對注意力機制、卷積核和操作融合進行各種最佳化,以便在裝置上運行高品質的影像生成模型。
現在只需12秒,就能在智慧型手機上產生「被周圍花朵包圍的可愛小狗的逼真高解析度圖像」。
移動GPU上的LDM的示例輸出,prompt:“一張可愛的小狗的照片逼真的高分辨率圖像,周圍有花朵”
語言和多模態模型的進步,也有利於機器人研究工作。
Google將單獨訓練的語言、視覺和機器人控制模型組合成PaLM-E(一種用於機器人的具身多模態模型)和Robotic Transformer 2(RT-2)。
這是一種新穎的視覺-語言-行動(VLA) 模型,它從網路和機器人資料中學習,並將這些知識轉化為機器人控制的通用指令。
RT-2架構和訓練:在機器人和網路資料上共同微調預先訓練的視覺語言模型。產生的模型接收機器人攝影機影像,並直接預測機器人要執行的動作
此外,Google也研究了使用語言來控制四足機器人的步態。
SayTap使用腳部接觸模式(例如,插圖中每隻腳的0和1序列,其中0表示空中的腳,1表示地面的腳)作為橋接自然語言使用者命令和低階控制命令的介面。透過基於強化學習的運動控制器,SayTap允許四足機器人接受簡單直接的指令(例如,「緩慢向前小跑」)以及模糊的用戶命令(例如,「好消息,我們這個週末要去野餐!」) ,並做出相應的反應
同時探索了透過使用語言來幫助制定更明確的獎勵函數,以彌合人類語言和機器人動作之間的差距。
語言到獎勵系統由兩個核心組件組成:(1) 獎勵翻譯器和(2) 運動控制器。Reward Translator將來自使用者的自然語言指令對應到表示為python程式碼的獎勵函數。運動控制器使用後退水平最佳化來最佳化給定的獎勵函數,以找到最佳的低階機器人動作,例如應施加到每個機器人馬達的扭矩量。
由於預訓練資料集中缺乏數據,LLM無法直接產生低階機器人動作。團隊建議使用獎勵函數來彌合語言和低階機器人動作之間的差距,並從自然語言指令中實現新穎的複雜機器人運動
在Barkour中,團隊對四腳機器人的敏捷極限進行了基準測試。
幾位狗狗被邀請來參與障礙賽,結果顯示:小型犬能在約10秒內完成障礙賽,機器狗一般要花20秒左右
演算法與最佳化
設計高效、穩健和可擴展的演算法始終是Google研究的重點。
最為重磅的成果之一,便是打破了十年演算法瓶頸的AlphaDev。
它的創新意義在於,AlphaDev並不是透過改進現有演算法,而是利用強化學習完全從頭開始發現了更快的演算法。
論文網址:https://www.nature.com/articles/s41586-023-06004-9
結果顯示,AlphaDev發現新的排序演算法,為LLVM libc++排序庫帶來了明顯的改進。對於較短的序列,速度提高了70%,而對於超過250,000個元素的序列,速度提高了約1.7%。
現在,這個演算法已經成為兩個標準C++編碼函式庫的一部分,每天都會被全球的程式設計師使用數萬億次。
為了更好地評估大型程式的執行效能,Google開發了可以用來預測大型圖(large graphs)特性的全新演算法,並配合發布了全新的資料集TPUGraphs。
TPUGraphs資料集包含4,400萬個用於機器學習程式最佳化的圖
此外,Google也提出了一種新的負載平衡演算法-Prequal,它能夠在分配伺服器查詢時,顯著節約CPU資源、減少回應時間和記憶體使用。
Google透過開發新的計算最小割、近似相關聚類和大規模平行圖聚類技術,改進了聚類和圖形演算法的SOTA。
其中包括,專為擁有萬億邊的圖設計的新型分層聚類演算法TeraHAC;可以同時實現高品質和高可擴展性的文本聚類演算法KwikBucks;以及用於近似多嵌入模型標準相似函數Chamfer Distance的高效演算法,與高度最佳化的精確演算法相比,該演算法的速度提高了50倍以上,並可擴展至數十億個點。
此外,Google也對大規模嵌入模型(LEMs) 進行了最佳化。
其中包括,統一嵌入(Unified Embedding),它在大規模機器學習系統中提供了經過實戰測試的特徵表示,以及序列注意力(Sequential Attention) 機制,它在模型訓練過程中可以發現高效的稀疏模型結構。
科學與社會
在不遠的將來,AI在科學研究中的應用,可望將某些領域的發現速度提升10倍、100倍甚至更多。
從而推動生物工程、材料科學、天氣預報、氣候預報、神經科學、遺傳醫學和醫療保健等眾多領域取得重大突破。
氣候與永續性
在飛機尾流(contrails) 的研究中,Google透過分析大量天氣資料、歷史衛星影像和以往的飛行記錄,訓練了一個能夠預測飛機尾流的形成區域,並據此調整航線的AI模型。結果顯示,這套系統可以將飛機尾流減少54%。
為了幫助抵禦氣候變遷帶來的種種挑戰,Google一直致力於開發全新的技術方法。
舉例來說,Google的洪水預報服務目前已經覆蓋了80個國家,能夠直接影響超過4.6億人口。
此外,Google在天氣預測模型的開發上也有了最新的進展。
在MetNet和MetNet-2的基礎上,Google打造了更強的MetNet-3,可以在長達24小時的時間範圍內,實現超越傳統數值天氣模擬的效果。
在中期天氣預報領域,全新AI模式GraphCast可在1分鐘內,精準預測10天全球天氣,甚至可預測極端天氣事件。
論文地址:https://www.science.org/doi/10.1126/science.adi2336
研究發現,與業界黃金標準天氣模擬系統-高解析度預報(HRES)相比,GraphCast在1,380個測試變數中準確預測超過90%。
而且,GraphCast還能比傳統預報模型更早辨識出惡劣天氣事件-提前3天預測未來氣旋的潛在路徑。
值得一提的是,GraphCast模式的原始碼已經全部開放,讓世界各地的科學家和預報員可以造福全球數十億人。
健康與生命科學
在醫療健康領域,AI展現了巨大的潛力。
初代Med-PaLM,是第一個通過美國醫學執照考試的AI模型。隨後的Med-PaLM 2,又在此基礎上進一步提升了19%,達到了86.5%的專家級準確率。
而最近發布的多模態Med-PaLM M,不僅可以處理自然語言輸入,而且還能夠解釋醫學影像、文字資料以及其他多種資料類型。
Med-PaLM M是一個大規模多模態生成模型,它能用相同的模型權重靈活地編碼和解釋生物醫學數據,包括臨床語言、成像和基因組學數據
不僅如此,AI系統還能在現有醫療數據中探索出全新的訊號和生物標記。
透過分析視網膜影像,Google證明了可以從眼睛的照片中預測出多個與不同器官系統(如腎臟、血液、肝臟)相關的全新生物標記。
在另一項研究中,Google也發現,將視網膜影像與基因資訊結合有助於揭示一些與老化相關的根本因素。
在基因組學領域,Google與60家機構的119位科學家合作,繪製出了新的人類基因組圖譜。
並且,在開創性的AlphaFold基礎上,為所有7100萬個可能的錯義變體中的89%,提供了預測目錄。
此外,Google還發布了AlphaFold最新進展——“AlphaFold-latest”,它可以對蛋白質資料庫(PDB)中幾乎所有分子,進行原子級精確的結構預測。
這項進展不僅深化了我們對生物分子的理解,也大幅提升了在配體(小分子)、蛋白質、核酸(DNA和RNA)以及含有翻譯後修飾(PTMs)的生物大分子等多個重要領域的準確性。
量子計算
量子電腦具有解決科學和工業領域重大現實問題的潛力。
但要實現這一潛力,量子電腦的規模必須比現在大得多,而且必須能夠可靠地執行經典電腦無法執行的任務。
為了確保量子運算的可靠性,還需要將它的錯誤率從現在的10^3分之一降到10^8分之一。
今年,Google在開發大型實用量子電腦的道路上邁出了重要一步——有史以來首次透過增加量子位元來降低運算錯誤率。
負責任的AI
生成式AI正在醫療、教育、安全、能源、交通、製造和娛樂等眾多領域帶來革命性的影響。
面對這些飛躍的發展,確保科技設計符合Google的AI原則仍是首要任務。
讓AI普及
在不斷推進機器學習和人工智慧的最新技術的同時,Google也致力於幫助人們理解並將AI應用於特定問題。
為此,Google推出了基於網頁的平台Google AI Studio,幫助開發者打造並迭代輕量級的AI應用。
同時,為了幫助AI工程師能夠更深入地理解和調試AI,Google也推出了最先進的開源機器學習模型調試工具——LIT 1.0。
作為Google最受歡迎的工具之一,Colab可以讓開發者和學生直接在瀏覽器中存取強大的運算資源,目前已擁有超過1000萬用戶。
前段時間,Google又在Colab中加入了AI程式碼輔助功能,讓所有的使用者都夠在資料分析和機器學習工作流程中,擁有更便利和一體化的體驗。
就在最近,Google為了確保AI能夠在實際應用中提供正確無誤的訊息,創新地推出了FunSearch方法。
透過演化演算法和大語言模型的結合,FunSearch能夠在數學科學領域產生經過驗證的真實知識。
具體來說,FunSearch將預先訓練的LLM與自動「評估器」配對使用。前者的目標是以電腦程式碼的形式提供創造性的解決方案,後者則防止幻覺和錯誤的想法。在這兩個組件之間反覆迭代之後,初始的解決方案便會「進化」為新知識。
論文網址:https://www.nature.com/articles/s41586-023-06924-6
社區參與
透過發表研究成果、參與和組織學術會議,Google正在持續推動AI和電腦科學的發展。
今年,Google已發表了500多篇論文。其中,有不少都被收錄在了包括ICML、ICLR、NeurIPS、ICCV、CVPR、ACL、CHI和Interspeech等眾多頂會中。
此外,Google還聯合33個學術實驗室,透過匯總來自22種不同機器人類型的數據,創建了Open X-Embodiment數據集和RT-X模型。
Google在MLCommons標準組織的支持下,帶頭在業界推動AI安全基準的建立,參與者包括OpenAI、Anthropic、Microsoft、Meta、Hugging Face等在生成式AI領域舉足輕重的機構。
展望未來
隨著多模態模型(multimodal models)的不斷進步,它們將助力人類在科學、教育乃全新的知識領域中取得驚人的成就。
隨著時間的推進,Google的產品和研究也不斷進步,而人們也會找到更多富有創意的AI應用方式。
在這篇年終總結的最後,讓我們回到開頭的話題,正如Google在「Why We Focus on AI (and to what end)」中所言:
「如果大膽而負責地推進AI的發展,我們相信AI能夠成為一項基礎技術,徹底改變全世界人的生活——這正是我們追求的目標,也是我們的激情所在!”
參考資料: