Google全新大模型突然發布：百萬上下文僅靠提示學會新語言

2024-02-18 Comments 0 Comment

Google下一代大模型，無預警降臨。Gemini 1.5，除了表現顯著增強，還在長上下文理解方面取得突破，甚至能僅靠提示詞學會一門訓練資料中沒有的新語言。此時距離去年12月Gemini 1.0發布，不到3個月。

現在光是中盃1.5 Pro版就能越級打平上一代大杯1.0 Ultra版，更是在27項測試中超越平級的1.0 Pro。

支援100萬token上下文窗口，迄今為止大模型中最長，直接甩開對手一個量級。

這還只是對外發布的版本，Google更透露了內部研究版本已經能直衝1000萬。

現在Gemini能處理的內容，可換算成超過70萬個單字，或1小時視訊、11小時音訊、超過3萬行程式碼。

沒錯，這些資料模態Gemini 1.5都已經內建支援。

從今天起，開發者和客戶就可以在Vertex API或AI Studio申請試用。

剛剛收到消息還在震驚中的網友be like：

還有人直接@了OpenAI的奧特曼，這你們不跟進一波？

上下文理解能力拉滿

目前Google已放出三個不同任務的演示視頻，只能說Gemini 1.5是個抽象派（doge）。

在第一段示範影片中，展示的是Gemini 1.5處理長影片的能力。

使用的影片是巴斯特·基頓（Buster Keaton）的44分鐘電影，共696161 token。

演示中直接上傳了電影，並給了模型這樣的提示詞：

找到從人的口袋中取出一張紙的那一刻，並告訴我一些關於它的關鍵資訊以及時間碼。

隨後，模型立刻處理，輸入框旁邊有一個「計時器」即時記錄所耗時間：

不到一分鐘，模型做出了回應，指出12:01的時候有個人從兜裡掏出了一張紙，內容是高盛典當經紀公司的一張當票，並且還給出了當票上的時間、成本等詳細資料。

隨後經查證，確認模型給出的12:01這個時間點準確無誤：

除了純文字prompt，還有更多玩法。直接給模型一張抽象“場景圖”，詢問“發生這種情況時的時間碼是多少？”。

同樣不到一分鐘，模型準確給出了的電影對應的時間點15:34。

在第二段示範影片中，Google展示了Gemini 1.5分析和理解複雜程式碼庫的能力。用到的是Three.js，這是一個3D Javascript函式庫，包含約100000行程式碼、範例、文件等。

演示中他們將所有內容放到了一個txt檔案中，共816767 token，輸入給模型並要求它「找到三個範例來學習角色動畫」。

結果模型查看了數百個範例後篩選出了三個關於混合骨骼動畫、姿勢、臉部動畫的範例。

這只是開胃小菜。接下來只用文字詢問模型“動畫Little Tokyo的demo是由什麼控制？”

模型不僅找到了這個demo，並且解釋了動畫嵌入在gLTF模型中。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

並且還能實現「定製程式碼」。讓模型「給一些程式碼，添加一個滑桿來控制動畫的速度。使用其它演示所具有的那種GUI」。

Gemini 1.5分鐘給出了可以成功運行的程式碼，動畫右上角出現了一個可控速的滑桿：

當然也可以做「程式碼定位」。僅靠一張demo的圖片，Gemini 1.5就能在程式碼庫中從數百個demo中，找到該圖對應動畫的程式碼：

還能修改程式碼，讓地形變得平坦，並解釋其中的工作原理：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

修改程式碼這一塊，文本幾何體的修改也不在話下：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

第三個示範影片展示的是Gemini 1.5的文件處理能力。

選用的是阿波羅11號登月任務的402頁PDF記錄，共326658 token。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

請Gemini 1.5「找出三個搞笑時刻，並列出文字記錄以及表情符號引述」：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

30秒，模型給出了回應，其一是邁克爾·柯林斯的這句話“我敢打賭你一定要喝一杯咖啡”，經查詢文檔中的確有記錄：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

更抽像一點，繪製一個靴子的圖片，詢問模型「這是什麼時刻」。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

模型正確地將其識別為這是Neil在月球上的第一步：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

最後同樣可以詢問模型快速定位這一刻在文件中對應的時間位置：

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

差不多的抽象風同樣適用於1382頁、732000 token的《悲慘世界》，一張圖定位小說位置。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

僅從提示詞中學會新語言

對於Gemini 1.5的技術細節，Google遵循了OpenAI開的好頭，只發布技術報告而非論文。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

其中透露Gemini 1.5使用了MoE架構，但沒有更多細節。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

與上代1.0 Pro相比，1.5 Pro在數學、科學、推理、多語言、視訊理解上進步最大，並達到1.0 Ultra層次。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

為驗證長上下文視窗的效能，使用了開源社群通行的大海撈針測試，也就是在長文本中準確找到可以藏起來的一處關鍵事實。

結果50萬token之前的表現非常完美，一直到千萬token，Gemini 1.5也只失誤了5次。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

另外也將測試擴展到多模態版本，如在影片畫面的某一幀中藏一句話，給的例子是在阿爾法狗的紀錄片中藏了「The secret word is ‘needle’」字樣。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

結果在視訊、音訊測試中都實現了100%的召回率。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

特別是音訊中，比較GPT-4+Whisper的結果，差距非常明顯。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

此外GoogleDeepMind團隊也測試了一項高難任務，僅透過長提示詞讓模型學會全新的技能。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

輸入一整本文法書，Gemini 1.5 Pro就能在翻譯全球不到200人使用的Kalamang上達到人類水準。

相較之下，GPT-4 Turbo和Claude 2.1一次只能看完半本書，想獲得這個技能就必須微調或使用外部工具了。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

也難怪有網友看完後驚呼，「哥們這是要把RAG玩死啊」。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

One More Thing

Google也公佈了一波已在業務中採用Gemini大模型的客戶。

其中有三星手機這樣的大廠，也有像Jasper這種靠GPT起家的創業公司，甚至連OpenAI董事Adam D’Angelo旗下的Quora。

與OpenAI形成了直接競爭關係。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

對此，一位網友道出了大家的心聲：

真希望這能促使OpenAI發布他們的下一代大模型。

Google全新大模型突然發布！百萬上下文，僅靠提示學會新語言

參考連結：

[1] https://twitter.com/JeffDean/status/1758146022726041615

[2] https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[3] https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。