DeepMind CEO揭密超進化體融進AlphaGo 明年問世
Google帶著Gemini真的來了,多模態能力震撼全網。下一代模型將融合AlphaGo深度強化學習技術,2024年問世。真正可以叫板GPT-4的模型,當屬Google Gemini。Gemini一經放出,強大的多模態能力演示刷屏全網,而GPT-5的話題瞬間也被推上了熱搜。

丟掉PaLM 2,GoogleBrad、辦公室全家桶等全線產品也將脫胎換骨,得到Gemini的加持。
Google官方稱,Gemini Ultra超大杯將在明年發布。

而在Gemini正式放出之前,就有接觸過內部測試的人評論到,「2023年如果是大模型元年的話,2024年很有可能是Gemini年」。
正如GoogleDeepMind負責人Demis Hassabis所說,Gemini的時代來臨了。
據透露,AlphaGo深度強化學習技術正在融入Gemini模型中,2024年的下一個版本將會超級進化。
32k上下文,三種杯型
ChatGPT誕生後風頭無兩,讓退居幕後的共同創辦人Sergey Brin心急。
7月,他曾爆出重回公司參與下一代AI系統的研發。

Gemini論文作者列表中,他的名字赫然在列。


關於60頁Gemini技術報告,網友做了一個濃縮版。

1. 用Jax編寫,使用TPU進行訓練。雖然沒有詳細解釋,但其架構似乎與Flamigo類似。
2. Gemini Pro的性能類似GPT-3.5,而Gemini Ultra據說優於GPT-4。Nano-1(1.8B 參數)和Nano-2(3.25B 參數)設計為在終端設備上運作。
3. 32K上下文長度。
4. 非常擅長理解視覺和語音。
5. 編碼能力:與GPT-4相比,HumanEval的大幅躍升(74.4% Vs 67%)。不過,Natural2Code基準顯示的差距要小得多(74.9% Vs 73.9%)。
6. 關於MMLU:用COT@32(32個樣本)來說明Gemini優於GPT-4似乎有些勉強。在5個樣本設定中,GPT-4更勝一籌(86.4% Vs 83.7%)。
7. 除了確保「所有資料濃縮工人至少獲得當地生活工資」之外,沒有關於訓練資料的任何資訊。

Gemini模型中盃、大杯、超大杯三種體量模型在不同能力上的語言理解與生成表現。

以下幾張圖,是關鍵對比數據。
Gemini在文字基準上的效能,與外部模型和PaLM 2-L的比較。
在影像理解方面,Gemini Ultra始終優於所有的模型。

語音基準上的評估結果,Gemini Pro在語音識別,以及自動語音翻譯都優於其他模型。

網友點評
交錯文字圖像生成
一位開發者Brian Roemmele發現Gemini Ultra確實略勝一籌。
根據技術報告,Gemini Ultra模型是在YouTube資料上進行深度訓練的,因此它可以從影片(《駭客任務》)中的一個場景推斷出一系列靜態圖像,並從中寫出文字敘述。
而Roemmele在ChatGPT-4 Turbo上進行了測試後,發現它無法推理出這樣的輸出結果。


Gemini Ultra也會以圖像和文字結合的方式回應。這就是所謂的「交錯文字和圖像生成」。
之所以能做到這一點,是因為模型是在多模態輸入的基礎上訓練出來的。

下面這個便是Gemini Ultra,從毛線球到編織完成文字與圖像的生成。

多模態+工具
在這個樣本中,我們看到Gemini Ultra在執行一項任務時,充分發揮了多模態訓練和微調的威力。
這種協同作用的發展規模在目前的人工智慧模型中尚屬首次。它將多模態與工具使用結合:畫圖搜尋音樂。


揭秘“魔術”
更厲害的是,Gemini Ultra還可以看懂魔術。
Roemmele表示,透過對經典魔術的辨別,可以看到了Gemini統一多模態模型的特徵。由於模型中的YouTube影片訓練,它可以理解序列並透過邏輯得出結論。

接下來,就是見證奇蹟的時刻了。給到一個右手拿硬幣的圖,讓Gemini去描述。

把硬幣變沒後,Gemini Ultra能夠一步步總結剛剛所看的所有過程。


最後,根據邏輯推理出結果。

Gemini多模態做題
Reddit一位網友上傳了一張截圖,他自己稱這是在Gemini下實測的結果。
圖中是一名高中生解答物理題的過程,他請Gemini對解題過程進行批改,如果有誤就讓他做出正確答案。
Gemini讀出了圖中學生解題思路的問題,並且成功地做出了答案。

而我們自己在把同一題給到GPT-4,它第一次嘗試回答時,到一半突然「夾住了」。

當要求它重新回答時,GPT-4才正確地判斷了學生的解題思路有問題,並給出了正確答案。

而同樣的情況在Reddit網友身上也發生了。

Gemini Nano將大模型戰火燒到了手機端
而這次Google發布的Gemini,不僅是對OpenAI用GPT-4定義的「大模型SOTA」的回應,還直接將大模型的戰火燒到了移動端,現在壓力來到了蘋果這邊。
Gemini的三個版本Ultra Pro Nano,針對從資料中心到手機都進行了最佳化,可以應對不同使用者在不同使用情境下的各種需求。

Gemini Nano是Google為行動裝置上任務所建構的最高效模型。現在它已經可以在Google的Pixel 8 Pro上運作。
作為首款專為Gemini Nano設計的智慧型手機,Pixel 8 Pro利用Google的人工智慧Soc Tensor G3的強大功能提供兩項擴充功能:記錄器中的摘要和Gboard中的智慧回應。
在本地運行的Gemini Nano可以讓用戶的敏感資料不離開離開手機,並在沒有網路連線的情況下使用大模型能力。
除了現在已經能在Pixel 8 Pro上運行的Gemini Nano之外,未來透過Bard的智慧助理功能,Pixel手機可以解鎖更強大的Gemini版本。
在Recorder中進行總結
Gemini Nano現在可以為Pixel 8 Pro 上的錄音機中的內容進行AI總結。
使用者可以在不連網的情況直接對自己錄製的對話、訪談、簡報等內容的產生摘要。


這個功能可以幫助用戶將之前自己記錄下來的冗長內容語音內容快速清晰地梳理出來,方便進一步的使用和整理,不得不說真的非常方便。
透過Gboard能在用戶的聊天中進行智慧回复
在Pixel 8 Pro中,Gemini Nano可以支援Gboard中的智慧型回覆功能。

在手機上的AI模型現在可以在WhatsApp上試用,明年將推出更多應用程序,可以透過對話感知能力提出高質量的回复,節省用戶大量的時間。

Gemini時代來臨了
身為GoogleDeepMind的領導人,Demis Hassabis也是興奮不已,並表示「Gemini的時代來臨了」。

在最新Wired的訪談中,Hassabis直言道,Google今天宣布的人工智慧模式Gemini為人工智慧開闢了一條未被實踐的道路,可能會帶來重大的新突破。
「身為神經科學家和電腦科學家,多年來我一直想嘗試創造一種新一代的人工智慧模型。而這些模型的靈感來自我們所有感官互動和理解世界的方式」。
「Gemini是邁向這個『多模態』模式的一大步」。

他繼續說,「到目前為止,大多數模型都是透過訓練單獨的模組,然後將其拼接在一起,來實現多模態能力」。
「對於某些任務來說,這是可以的,但是在多模態空間中,無法進行深度複雜推理」。
這似乎是在暗指OpenAI的技術。
我們都知道,ChatGPT的多模態能力,是由GPT-4、DALL·E 3、Whisper多個模型組合而實現的。
今年5月的Google開發者大會I/O上,劈柴首次官宣,Google正在訓練一個新的、更強大的PaLM繼任者,名為Gemini。

Gemini的命名也有深層的寓意,是為了紀念Google大腦和DeepMind兩個團隊實驗室的合體,並向美國太空總署Gemini致敬。
7個月的時間,關於Gemini的各種爆料也是層出不窮。
而現在,Google以驚人的速度研發出Gemini,著實在年底前來了一次重磅反擊。
Hassabis說,新模型能夠處理不同形式的數據,包括文字以外的數據,這是該專案從一開始就願景的關鍵部分。
許多人工智慧研究人員認為,能夠利用不同格式的數據是自然智慧的關鍵能力,而這正是機器所缺乏的。
ChatGPT等AI大模型因從強大的網路數據中學習,獲得了靈活且強大的泛化能力。
但是,儘管ChatGPT和類似的聊天機器人(11.880, 0.19, 1.63%)可以用同樣的技巧,來討論或回答有關物理世界的問題,但這種表面上的理解很快就會瓦解。

許多人工智慧專家認為,要讓機器智慧有重大進步,就需要AI系統在物理現實中賦予身體,也就是「具身」。
Hassabis表示,GoogleDeepMind已經在研究,如何將Gemini與機器人技術結合,與世界進行物理互動。
「要實現真正的多模態,你需要包括觸覺和觸覺回饋。將這些基礎型模型應用於機器人技術有很多希望,我們正在大力探索」。
目前,Google已經朝著這個方向邁出了一小步。
5月,該公司宣布了一款名為Gato的AI模型,能夠學習執行各種任務,包括玩Atari遊戲、為圖像添加字幕,以及使用機械手臂堆疊積木。
今年7月,GoogleRT-2機器人模型,便是透過語言模型來幫助機器人理解和執行動作。

為了讓AI智能體更可靠,就需要為其提供動力的演算法必須更加智慧。
前段時間,OpenAI曾被曝出開發一個名為“Q*”的項目,網友紛紛猜測可能用到了“強化學習”,這是AlphaGo的核心技術。
不過,Hassabis稱,Google目前正在按照類似的想法進行研究。
AlphaGo的進步有望幫助改善未來模型的規劃和推理,就像今天推出的模型一樣。我們正在努力進行一些有趣的創新,以將其帶入Gemini的未來版本。
「明年,你將會看Gemini超強進化」。
看來,正如網友所說,我們離GPT-5降臨的那一天也不遠了。

參考資料:
https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/