Google深夜放復仇殺器Gemini:最強原生多模態史詩級碾壓GPT-4 語言理解首超人類
傳說中的Gemini,終於在今天深夜上線了!’原生多模態’架構,是Google的史詩級創舉,Gemini也如願在多個領域超越了GPT-4。這場仗,Google必不能輸。Google的復仇大殺器Gemini,深夜忽然上線!被ChatGPT壓著打了整整一年,Google選擇在12月的這一天,展開最強反擊戰。
多模態Gemini,迄今規模最大、能力最強的Google大模型,在文字、視訊、語音等多個領域超越了GPT-4,是真正的一雪前恥。
人類有五種感官,我們所建造的世界、所消費的媒體,都是以這樣的方式呈現。
而Gemini的出現,就是邁向真正通用的AI模型的第一步!
Gemini的誕生,代表著AI模型的巨大飛躍,Google所有的產品,都將隨之改頭換面。
塞進多模態模型的搜尋引擎、廣告產品、Chrome瀏覽器…這,就是Google給我們的未來。
多模態的史詩級創新
以前,多模態大模型就是將純文字、純視覺和純音訊模型拼接在一起,就像OpenAI的GPT-4、DALL·E和Whisper。然而,這並不是最優解。
相較之下,在設計之初,多模態就是Gemini計畫的一部分。
從一開始,Gemini就在不同模態上進行了訓練。隨後,研究人員又用額外的多模態資料進行了微調,進一步提升了模型的有效性。最終,實現了’無縫’地理解和推理各種模態的輸入內容。
從結果來看,Gemini的表現遠遠優於現有的多模態模型,而且它的功能幾乎在每個領域都是SOTA等級的。
而這個最大、最有能力的模型,也意味著Gemini可以用和人類一樣的方式理解我們周圍的世界,並且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。
Gemini猜對了紙團在最左邊的杯子裡
Google DeepMind執行長兼聯合創辦人Demis Hassabis表示,Google一直對非常通用的系統感興趣。
而這裡最關鍵的,就是如何混合所有這些模式,如何從任意數量的輸入和感官中收集盡可能多的數據,然後給出同樣多樣化的反應。
DeepMind和Google大腦合併後,果然拿出了真東西。
之所以命名為Gemini,就是因為Google兩大AI實驗室的合體,另外也一個解釋是參考了美國宇航局的Gemini項目,後者為阿波羅登月計劃鋪平了道路。
首次超越人類,大幅碾壓GPT-4
雖然沒有正式公佈,但根據內部消息,Gemini有萬億參數,訓練所用的算力甚至達到GPT-4的五倍。
既然是拿來硬剛GPT-4的模型,Gemini當然少不了經歷最嚴格的測試。
Google在多種任務上評估了兩種模型的性能,驚訝地發現:從自然圖像、音訊、視訊理解到數學推理,Gemini Ultra在32個常用的學術基準的30個上,已經超越GPT-4!
而在MMLU(大規模多任務語言理解)測試中,Gemini Ultra以90.0%的高分,首次超過了人類專家。
Gemini是第一個在MMLU(大規模多任務語言理解)上超越人類專家的模型
MMLU測驗包括57個學科,如數學、物理、歷史、法律、醫學和倫理,旨在檢視世界知識和解決問題的能力。
在這50多個不同學科領域中的每一個領域中,Gemini都和這些領域最好的專家一樣好。
Google為MMLU設定的新基準,讓Gemini在回答複雜問題之前,能夠更仔細地發揮推理能力,相較於僅依賴直覺反應,這種方法帶來了顯著提升。
在新的MMMU基準測試中,Gemini Ultra也取得了59.4%的高分,這項測試包含了跨越不同領域的多模態任務,這些任務需要深入的推理過程。
在影像基準測試中,Gemini Ultra的表現也超過了先前的領先模型,而且,這項成就是在沒有OCR系統幫助的情況下實現的!
種種測試表明,Gemini在多模態處理上表現出了強大的能力,並且在更複雜的推理上也有極大潛力。
詳情可參考Gemini技術報告:
報告網址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
中盃、大杯、超大杯!
Gemini Ultra是Google迄今為止創建的最強大LLM最大,能夠完成高度複雜的任務,主要面向資料中心和企業級應用。
Gemini Pro是性能最好的模型,用於廣泛的任務。它將為許多Google的AI服務提供動力,並且從今天起,成為Bard的支柱。
Gemini Nano是最高效的模型,用於設備端任務,可以在Android設備上本地和離線運行,Pixel 8 Pro的用戶就能馬上體驗到。其中,Nano-1的參數為1.8B,Nano-2為3.25B。
Gemini最基本的模型能做到文字輸入和文字輸出,但像Gemini Ultra這樣更強大的模型,則可以同時處理影像、視訊和音訊。
不僅如此,Gemini甚至還能學會做動作、觸摸這種更像機器人(11.640, 0.03, 0.26%)的功能!
以後,Gemini會獲得更多的感官,變得更有意識,更準確。
雖然幻覺問題仍然不可避免,但模型知道的越多,表現就會越好。
文字、圖像、音訊精準理解
Gemini 1.0經過訓練,可以同時辨識和理解文字、圖像、音訊等各種形式的輸入內容,因此它也能更好地理解細微的訊息,回答與複雜主題相關的各類問題。
例如,用戶先是上傳了一段非英語的音頻,然後又錄了一段英語的音頻來提問。
要知道,一般設計音訊的歸納,都是用文字輸入prompt。而Gemini可以同時處理兩段不同語言的音頻,以精準輸出所需的摘要內容。
更厲害的是,如果我想做一個煎蛋,不僅可以用語音問Gemini,還可以把手頭有的食材拍個照片一併發過去。
然後,Gemini會結合音訊中發送的需求,以及配圖中的食材,手把手教你該怎麼做好一個煎蛋。
甚至,每完成一步,都可以拍個照片,而Gemini可以根據實際進度繼續指導下一步該做什麼。
手癌星人、不會做星星都有救了!
而且,這項能力也讓Gemini特別擅長解釋數學和物理等複雜學科的推理問題。
例如,家長想在輔導孩子作業的時候省點事,該怎麼辦?
答案很簡單,直接拍張圖上去,Gemini的推理能力足以解決數學、物理等各類理科問題。
針對其中任何一個步驟,都可以追問Gemini來獲得更具體的解釋。
甚至,還可以就出錯的點,直接讓Gemini輸出一個和出錯類型相似的題目鞏固一下。
複雜推理輕鬆搞定
此外,Gemini 1.0具有的多模態推理能力,可以更好地理解複雜的書面和視覺訊息。這使得它在發掘埋藏在海量的資料中難以辨別的知識方面具有優越的表現。
透過閱讀、過濾和理解訊息,Gemini 1.0也能夠從成千上萬的文件中提取出獨到的觀點,從而幫助從科學到金融等眾多領域實現新的突破。
Alpha Code 2:編碼能力超85%人類選手
當然,基準測試終究只是測試,對Gemini的真正考驗,是想要用它來寫程式的使用者。
寫程式碼,就是Google為Gemini打造的殺手級功能。
Gemini 1.0模型不僅可以理解、解釋和產生世界上最主流的程式語言,例如Python、Java、C++和Go的高品質程式碼。同時它能夠跨語言工作,並對複雜訊息進行推理。
從這一點來看,Gemini毫無疑問會成為世界領先的程式設計基礎模型之一。
兩年前,Google推出過一款叫做Alpha Code的產品,它也是第一個在程式設計競賽中達到具有競爭力水準的AI程式碼產生系統。
而以客製化版為基礎的Gemini,Google推出了更先進的程式碼產生系統-Alpha Code 2。
在面對不僅涉及編程,還涉及複雜的數學和計算機科學理論等領域的問題時,Alpha Code 2都表現出了卓越的性能。
在與第一代Alpha Code相同的測試平台上,Google的開發人員也對Alpha Code 2進行了測試。
結果顯示,新模型展現了顯著的進步,解決的問題數幾乎是先前Alpha Code的兩倍。
其中,Alpha Code 2程式設計的效能超過了85%的人類程式設計師,相較之下,Alpha Code只超過了約50%的程式設計師。
不僅如此,當人類程式設計師與Alpha Code 2合作時,人類程式設計師為程式碼範例設定特定的要求,Alphacode 2的效能會進一步提升。
Alpha Code 2的運作依賴於強大的LLM,並結合了專為競賽程式設計的先進搜尋和重排機制。
如下圖所示,新的模型主要由以下幾部分組成:
– 多個策略模型,用於為每個問題產生各自的程式碼樣本;
– 取樣機制,能夠產生多樣化的程式碼樣本,以便在可能的程式解決方案中進行搜尋;
– 過濾機制,移除那些不符合問題描述的程式碼樣本;
– 聚類演算法,將語意上相似的程式碼樣本分組,以減少重複;
– 評分模型,用於從10個代碼樣本集群中篩選出最優解。
詳情可參考Alpha Code 2技術報告:
更可靠、更有效率、可擴展
對Google來說同樣重要的是,Gemini顯然是一個效率更高、更可靠、可擴展的模型。
它是在Google自己的張量處理單元上訓練的,比Google以前的模型(如PaLM)運行起來更快、更便宜。
開發人員使用了Google內部研發的張量處理單元TPU v4和v5e,在AI優化的基礎設施上對Gemini 1.0進行了大規模的訓練。
而可靠、可擴展的訓練模型和最有效率的服務模型,就是Google做出Gemini的重要目標。
在TPU上,Gemini的運行速度明顯快於早期規模較小、能力較弱的模型。這些客製化設計的AI加速器是Google大模型產品的核心。
要知道,這些產品為搜尋、YouTube、Gmail、Google地圖、Google Play和Android等數十億用戶提供服務。它們也幫助了世界各地的科技公司經濟、有效率地訓練大模型。
除了Gemini,Google在今天也發布了迄今為止最強大、最高效,並且可擴展的TPU系統——Cloud TPU v5p,專為訓練尖端的AI模型而設計。
新一代TPU將加速Gemini的發展,幫助開發人員和企業客戶更快訓練大規模生成式AI模型,並開發出新產品和新功能。
Gemini,讓Google再次偉大?
顯然,在Pichai和Hassabis看來,Gemini的發布只是一個開始——一個更大的項目即將開啟。
Gemini是Google一直在等待的模式,在OpenAI和ChatGPT接管世界後,Gemini是Google探索一年得出的結論。
發布’紅色警報’後,Google一直在追趕,但兩人都表示,不願意為了跟上步伐而走得太快,尤其是我們越來越接近AGI。
Gemini是否會改變世界?最好的情況是,它能幫Google在生成式AI競賽中趕上OpenAI。
但劈柴、Hassabis等人似乎都認為,這才是Google真正偉大的開始。
今天發布的技術報告,沒有透露架構細節、模型參數或訓練資料集。
艾倫人工智慧研究所前CEO Oren Etzioni說,’沒有理由懷疑Gemini在這些基準上比GPT-4更好,但沒準GPT-5會比Gemini做得更好。’
打造像Gemini這樣的巨量模型,可能需要花費數億美元,但對於在透過雲端提供AI佔據主導地位的公司來說,最終的回報可能是數十億甚至數萬億美元。
‘這是一場不能失敗,必須打贏的戰爭。’