GPT-4勁敵Google進入高能量+高產量模式
Alphabet與Google公司執行長Sundar Pichai攜首席科學家Jeff Dean等眾主管在X平台發表了多模態模式Gemini 1.5 Pro。這是繼2月7日的Gemini 1.0 Ultra後,Google在多模態大模型賽道的另一個力作。在這場爭奪AIGC話語權與領導力的追逐戰裡,Google與微軟爭相拼臂力秀肌肉。 Gemini 1.5 Pro的橫空出世,將多模態大模型的標準提到了一個新高度。
一、極致性能背後的模型架構
圖源:X平台Alphabet與Google公司首席科學家Jeff Dean推文
「巧合」的是,Open AI在Gemini 1.5 Pro官方宣布兩小時發布Sora這枚重磅炸彈,頗有「一較高下」的勁頭。只是由於當下大家的視線焦點集中在視頻領域,Sora 又是 OpenAI 首次發布文生視頻模型,所以無奈被搶了頭條。
圖源:微博評論
Gemini 1.5 Pro建立在Google對Transformer和MoE架構的領先研究之上。傳統Transformer充當一個大型神經網絡,而 MoE(Mixture of Experts 混合專家模型)模型則分為更小的「專家」神經網絡。在這個結構之下,透過將模型參數劃分為多個組別而實現的計算的稀疏化,即每次執行推理任務時,根據對輸入類型的判斷,MoE模型會透過閘控網路選擇性地激活神經網路中最契合指令的專家參與計算。
這種專業化、模組化的劃分可以在提升預訓練計算效率的同時提升大模型處理複雜任務的效能,更快學習複雜任務的同時確保準確性。與稠密模型相比,MoE模型的預訓練速度較快;使用MoE 層取代transformer 中的前饋網路(FFN)層。因而對的採用可以彌補Transformer架構運算效率的問題。
在Switch-Transformer、M4等領域,Google 一直是深度學習 MoE 技術的早期採用者。目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。有消息稱,GPT-4也採用了由 8 個專家模型組成的整合系統。 2023年12月8日Mistral AI 發布的 Mixtral 8x7B 同樣採用了這種架構。就國內的大模型而言,只有Minimax採用了MoE架構。
二、擴容的上下文視窗意味著什麼?
雖然Gemini 1.5 Pro是 Gemini 1.5 系列的第一代版本,但初代表現不俗。擴大上下文視窗後的高水準效能是Gemini 1.5 Pro的一大亮點。
多模態大模型捲到今日,上下文視窗容量已然成為提升其理解能力的關鍵掣肘。先前的SOTA模型將上下文視窗容量捲到了20萬token。而Google的Gemini 1.5 Pro直接將上下文視窗容量提到了100萬token(極限為1000萬token),遠遠超出了 Gemini 1.0 最初的 32,000 個 token,創下了最長上下文視窗的紀錄。
對於文字處理,Gemini 1.5 Pro在處理高達530,000 token的文字時,能夠達到100%的檢索完整性,在處理1,000,000 token的文字時達到99.7%的檢索完整性。即使在處理高達10,000,000 token的文字時,檢索準確性仍然高達99.2%。在音訊處理方面,Gemini 1.5 Pro能夠在大約11小時的音訊資料中,100%成功檢索到各種隱藏的音訊片段。在視訊處理方面,Gemini 1.5 Pro能夠在大約3小時的影片內容中,100%成功檢索到各種隱藏的視覺元素。
圖源:Gemini 1.5 Pro官方測試數據
Gemini 1.5 Pro大大超過Gemini 1.0 Pro,在27項基準(共31項)上表現較好,特別是在數學、科學和推理(+28.9%),多語言(+22.3%),影片理解(+11.2 %)和代碼(+8.9%)等領域。即使是比較Gemini 系列的高階產品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超過一半的基準(16/31)上表現較好,特別是在文字基準(10/13)和許多視覺基準(6/13)上。在 NIAH測試中,Gemini 1.5 Pro能夠在長達100萬token的文字區塊中,以99%的準確率找出隱藏有特定資訊的文字片段。
圖源:Gemini 1.5 Pro官方測試數據
這個上下文長度使Gemini 1.5 Pro可以自如地處理22小時的錄音、超過十倍的完整的1440頁的書(587,287字)“戰爭與和平”,以及四萬多行代碼、三小時的視頻。
三、機器腦有多好使
除高效架構和強上下文處理能力之外,Gemini 1.5 Pro的優秀品質還在於「情境學習」技能,它可以根據長提示,從以前從未見過的信息中學習新技能,而不需要額外的微調。強學習能力、資訊檢索與資料分析能力使得在知識海洋中「海底撈針」由想像映照進了現實。
根據官方發布的測驗報告,當給定卡拉曼語(全球使用人數不足200 人的語言)的語法手冊時(500頁的語言文獻,一本字典和400個平行句子),Gemini 1.5 Pro模型可以學習將英語翻譯成卡拉曼語,其程度與學習相同內容的人相似。
圖源:Gemini 1.5 Pro官方示範樣本
當被一個45分鐘的Buster基頓電影“小神探夏洛克”(1924年)(2674幀,1FPS,684k token)提示時,Gemini 1.5 Pro可以從其中的特定幀中檢索和提取文本信息,並提供相應的時間戳。另外還可以從一張手繪素描中辨識電影中的一個場景。與專注於衡量模型檢索能力的特定事實或細節的任務不同,這些問題通常需要了解跨越大量文本的資訊片段之間的關係。
圖源:Gemini 1.5 Pro官方示範樣本
Gemini 1.5 Pro在處理長達超過100,000行的程式碼時,也具備極強的問題解決能力。面對龐大的程式碼量,它能夠深入分析各個範例,提出實用的修改建議,還能詳細解釋程式碼的條例框架。給出了整個746,152個令牌JAX程式碼庫,Gemini 1.5 Pro可以辨識核心自動微分方法的具體位置。開發者可以直接上傳新的程式碼庫,利用這個模型快速熟悉、理解程式碼結構。
圖源:Gemini 1.5 Pro官方示範樣本
正如NVIDIA高級科學家Jim Fan所言,Gemini 1.5 Pro意味著LLM能力的大幅躍升,這對於做個體戶的小公司而言可謂一騎絕塵。
在人機協同的探索過程中,單一的文本互動很難滿足多場景多樣態的內容生產訴求。多模態的資訊處理與生成能力顯然是技術變革的發力點。紐約大學電腦助理教授謝賽寧說,人才第一,數據第二,算力第三,其他都沒有什麼是不可取代的。 Gemini 1.5 Pro是Google與巔峰對決的又一利器,或許AGI時代正加快到來。