GoogleGemini 1.5上線多模態硬剛GPT-5 MoE首破100萬極限情境紀錄
剛剛,我們經歷了LLM劃時代的一夜。 Google又在深夜發炸彈,Gemini Ultra發布還沒幾天,Gemini 1.5就來了。卯足勁和OpenAI微軟一較高下的Google,開始進入了高產模式。自家最強的Gemini 1.0 Ultra才發布沒幾天,Google又放大了。
就在剛剛,GoogleDeepMind首席科學家Jeff Dean,以及聯創兼CEO的Demis Hassabis激動地宣布了最新一代多模態大模型——Gemini 1.5系列的誕生。
其中,最高可支援10,000K token超長上下文的Gemini 1.5 Pro,也是Google最強的MoE大模型。
不難想像,在百萬級token上下文的加持下,我們可以更加輕易地與數十萬字的超長文檔、擁有數百個文件的數十萬行代碼庫、一部完整的電影等等進行交互。
同時,為了介紹這款劃時代的模型,Google也發布了長達58頁的技術報告。
論文網址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
毫不誇張地說,大語言模型領域從此將進入一個全新的時代!
1,000,000 token超超超長上下文,全面碾壓GPT-4 Turbo
在上下文視窗方面,先前的SOTA模型已經「卷」到了200K token(20萬)。
如今,Google成功將這個數字大幅提升——能夠穩定處理高達100萬token(極限為1000萬token),創下了最長上下文視窗的紀錄。
1000萬token極限海底撈針幾乎全綠
首先,我們來看看Gemini 1.5 Pro在多模態海底撈針測驗中的成績。
對於文字處理,Gemini 1.5 Pro在處理高達530,000 token的文字時,能夠達到100%的檢索完整性,在處理1,000,000 token的文字時達到99.7%的檢索完整性。
即使在處理高達10,000,000 token的文字時,檢索準確性仍然高達99.2%。
在音訊處理方面,Gemini 1.5 Pro能夠在大約11小時的音訊資料中,100%成功檢索到各種隱藏的音訊片段。
在視訊處理方面,Gemini 1.5 Pro能夠在大約3小時的影片內容中,100%成功檢索到各種隱藏的視覺元素。
此外,Google研究人員還開發了一個更通用的版本的「大海撈針」測試。
在這個測試中,模型需要在一定的文字範圍內檢索到100個不同的特定資訊片段。
在這個測試中,Gemini 1.5 Pro在較短的文字長度上的表現超過了GPT-4-Turbo,並且在整個100萬token的範圍內保持了相對穩定的表現。
與之對比鮮明的是,GPT-4 Turbo的性能則飛速下降,且無法處理超過128,000 token的文本,表現慘烈。
大模型視野,被「史詩級」拓寬
LLM發展到這個階段,模型的上下文視窗已經成為了關鍵的掣肘。
模型的上下文視窗由許多token組成,它們是處理單字、圖像、視訊、音訊、程式碼這些資訊的基礎建構。
模型的上下文視窗越大,它處理給定提示時能夠接納的資訊就越多——這就使得它的輸出更加連貫、相關和實用。
而這次,Google透過一系列機器學習的創新,大幅提升了1.5 Pro的上下文視窗容量,從Gemini 1.0的原始32,000 token,直接提升到了驚人的1,000,000 token。
這就意味著,1.5 Pro能夠一次處理大量資訊——例如1小時的影片、11小時的音訊、超過30,000行的程式碼庫,或是超過70萬個單字。
甚至,Google曾經一度成功測試了高達10,000,000的token。
深入理解海量訊息
脫胎換骨的Gemini 1.5 Pro,已經可以輕鬆分析給定提示中的海量內容!
它能夠洞察文件中的對話、事件和細節,展現出對複雜資訊的深刻理解。
我們甩給它一份阿波羅11號任務到月球的402頁飛行記錄,它對於多複雜的信息,都能表現出深刻的理解。
讓它從文件中列舉出3個喜劇性的時刻,接下來,就是見證奇蹟的時刻——
才過了30秒出頭,答案就已經生成了!
接下來,來看看它的多模態功能。
把這張圖輸入進去,問它:這是什麼時刻?
它會回答,這是阿姆斯壯邁上月球的一小步,也是人類的一大步。
這次,Google也新增了一個功能,讓開發者上傳多個檔案(例如PDF),並提出問題。
更大的上下文窗口,就讓模型能夠處理更多訊息,從而讓輸出結果更加一致、相關且實用。
橫跨各種不同媒介
同時,Gemini 1.5 Pro也能夠在影片中展現出深度的理解與推理能力!
由於Gemini的多模態能力,上傳的影片會被拆分成數千個畫面(不包括音訊),以便執行複雜的推理和問題解決任務。
例如,輸入這部44分鐘的無聲電影——Buster Keaton主演的經典之作《小神探夏洛克》。
模型不僅能精準地捕捉電影的各個情節和發展,還能洞察到極易被忽略的細微之處。
我們可以問它:找到一張紙從主角口袋中拿出來的瞬間,然後告訴我關於這個細節的資訊。
令人驚訝的是,模型大約花了60秒左右就準確地找出,這個鏡頭是在電影的12:01,也描述出了相關細節。
果然,模型精準找出了這個鏡頭的時間點,所述細節也完全精確!
輸入一張粗略的塗鴉,要求模型找到電影中的對應場景,模型也在一分鐘內找到了答案。
高效處理更長程式碼
不僅如此,Gemini 1.5 Pro在處理長達超過100,000行的程式碼時,也具備強大的問題解決能力。
面對如此龐大的程式碼量,它不僅能夠深入分析各個範例,提出實用的修改建議,還能詳細解釋程式碼的各個部分是如何協同工作的。
開發者可以直接上傳新的程式碼庫,利用這個模型快速熟悉、理解程式碼結構。
高效架構的秘密:MoE
Gemini 1.5的設計,基於的是Google在Transformer和混合專家(MoE)架構方面的前沿研究。
有別於傳統的作為一個龐大的神經網路運作的Transformer,MoE模型由眾多小型的「專家」神經網路組成。
這些模型可以根據不同的輸入類型,學會僅啟動最相關的專家網路路徑。
這樣的專門化,就使得模型效率大幅提升。
而Google透過Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成為深度學習領域中MoE技術的領航者。
Gemini 1.5的架構創新帶來的,不僅是更迅速地掌握複雜任務、維持高品質輸出,在訓練和部署上也變得更有效率。
因此,團隊才能以驚人的速度,不斷迭代並推出更先進的Gemini版本。
性能比肩Ultra,大幅超越1.0 Pro
在涵蓋文字、程式碼、圖像、音訊和視訊的綜合性測試中,1.5 Pro在87%的基準測試上超越了1.0 Pro。
與1.0 Ultra在相同基準測試的比較中,1.5 Pro的表現也相差無幾。
Gemini 1.5 Pro在擴大情境視窗後,依然保持了高水準的效能。在「大海撈針(NIAH)」測試中,它能夠在長達100萬token的文字區塊中,在99%的情況下,準確找出隱藏有特定資訊的文字片段。
此外,Gemini 1.5 Pro展現了卓越的「情境學習」能力,能夠僅憑長提示中提供的資訊掌握新技能,無需進一步細化調整。
這項能力在「從一本書學習機器翻譯(MTOB)」基準測試中得到了驗證,該測試檢驗了模型學習從未接觸過的資訊的能力。
對於一本關於全球少於200人使用的Kalamang語的文法手冊,模型能夠學會將英語翻譯成Kalamang,學習效果與人類學習相似。
Google的研究者成功地增強了模型處理長文本的能力,而這種增強並沒有影響模型的其他功能。
雖然這項改進只用了Gemini 1.0 Ultra模型訓練時間的一小部分,但1.5 Pro模型在31項性能測試中的17項上超過了1.0 Ultra模型。
與1.0 Pro模型相比,1.5 Pro在31項測試中的27項上,表現較佳。
具體結果如下:
細節表現如何?
分析並掌握複雜程式碼庫
這款模型能夠迅速吸收大型程式碼庫,並解答複雜的問題,這一點非常引人注目。
例如,three.js是一個包含約10萬行程式碼、範例和文件等的3D Javascript函式庫。
借助這個程式碼庫作為背景,系統能夠幫助使用者深入理解程式碼,並且能夠根據人們提出的高層次要求來修改複雜的範例。
例如:“展示一些程式碼,用於添加一個滑桿控制動畫速度。採用和其他演示相同的GUI風格。”
或精確地指出需要修改的程式碼部分,以改變另一個範例中產生的地形的高度。
瀏覽龐大而陌生的程式碼庫
並且,模型能夠幫我們理解程式碼,或定位某個特定功能的實現位置。
在這個例子中,模型能夠處理整個包含116個檔案的JAX程式碼庫(746k token),並協助使用者找到實現自動微分反向傳播的確切程式碼位置。
顯然,在深入了解一個陌生的程式碼庫或日常工作中使用的程式碼庫時,長上下文處理能力的價值不言而喻。
許多Gemini團隊成員已經發現,Gemini 1.5 Pro的長上下文處理功能,對於Gemini 程式碼庫大有裨益。
長篇複雜文檔的推理
同時,模型在分析長篇、複雜的文本文檔方面也非常出色,例如雨果的五卷本小說《悲慘世界》(共1382頁,含732,000個token)。
下面這個簡單的實驗,就展示了模型的多模態能力:粗略地畫出一個場景,並詢問“請看這幅圖畫中的事件發生在書的哪一頁?”
模型就能給出準確的答案-1099頁!
Kalamang語翻譯
報告中一個特別引人注目的例子是關於Kalamang語的翻譯。
卡拉曼語是新幾內亞西部、印尼巴布亞東部不足200人使用的語言,幾乎未在網路上留下足跡。
Gemini Pro 1.5透過情境學習掌握了Kalamang語的知識,其翻譯品質可與使用相同材料學習的人相媲美。
在英語到卡拉曼語的翻譯中,Gemini Pro 1.5的ChrF達到了58.3,大幅超過了以往最好的模型得分45.8 ChrF,並略高於MTOB論文報告的57.0 ChrF人類基準。
這項成就無疑帶來了令人激動的可能性,提升稀有語言的翻譯品質。
Gemini 1.5的誕生,意味著性能的階段飛躍,標誌著Google在研究和工程創新上,又邁出了登月般的一步。
接下來能跟Gemini 1.5硬剛的,大概就是GPT-5了。
參考資料:
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#architecture