超越GPT4!谷歌大殺器終於來了最大規模Gemini震撼發布
時代變了?迄今為止規模最大,能力最強的Google大模型來了。當地時間12 月6 日,Google CEO 桑達爾・皮查伊官宣Gemini 1.0 版正式上線。
這次發布的Gemini 大模型是原生多模態大模型
現在,Google的類別ChatGPT 應用程式Bard 已經升級到了Gemini Pro 版本,實現了更進階的推理、規劃、理解等能力,同時繼續保持免費。Google預計在明年初推出“Bard Advanced”,將使用Gemini Ultra。
這是Bard 問世以來最大的更新。
自從ChatGPT 發布以來,我們一直對Google聲稱的競品Gemini 模型的能力非常好奇,這款大模型早在今年3 月就有了風聲,5 月的I/O 大會上進入「即將推出」的狀態。
隨著知情人士不斷透露新訊息,我們能了解到:據說Gemini 有萬億參數,訓練動用的算力是GPT-4 的五倍。但Gemini 的正式發布似乎因為各種原因而屢遭推遲。
為了與OpenAI 和微軟展開競爭,Google果斷從PaLM 2 切換到了Gemini 上,甚至在今年4 月份直接把Google大腦(Google Brain)和DeepMind 合併在了一起,Gemini 就由新組成的Google DeepMind 匯合兩個實驗室的力量進行攻關。
可見Google在大模型軍備競賽上孤注一擲的心態。
那麼,Gemini 真的能夠帶給我們驚喜嗎?除了在各種Benchmark 上拿到最優成績,甚至超越人類以外,有趣的是,在新聞發布會上,面對記者有關“Gemini 相比以前的大模型有哪些新能力”的提問,Google DeepMind 產品副總裁Eli Collins 回答說:“我懷疑有”,表示Google仍然在努力了解Gemini Ultra 的全部能力。
以下為Google CEO 皮查伊的聲明:
每一次技術變革都是推動科學發現、加速人類進步和改善生活的機會。我相信我們現在所見的人工智慧轉變將是我們一生中最深刻的轉變,遠大於先前向行動或網路的轉變。人工智慧有潛力為世界各地的人們創造從日常生活到非凡的機會。它將帶來新一波的創新和經濟進步,並以前所未有的規模推動知識、學習、創造力和生產力。
這讓我感到興奮:有機會讓人工智慧為世界各地的每個人提供幫助。
作為一家人工智慧優先的公司,我們已經走過了近八年的歷程,進步的步伐只會不斷加快:數百萬人現在在我們的產品中使用生成式人工智慧來完成一年前無法完成的事情,從尋找答案到更複雜的問題使用新工具進行協作和創造的問題。與此同時,開發人員正在使用我們的模型和基礎設施來建立新的生成式人工智慧應用程序,世界各地的新創公司和企業正在利用我們的人工智慧工具不斷成長。
這是令人難以置信的勢頭,然而,我們才剛開始觸及可能性的表面。
我們正在大膽而負責任地進行這項工作。這意味著我們的研究要雄心勃勃,追求能夠為人類和社會帶來巨大利益的能力,同時建立保障措施並與政府和專家合作,應對人工智慧變得更強大的風險。我們將繼續投資最好的工具、基礎模型和基礎設施,並在我們的人工智慧原則的指導下將它們引入我們的產品和其他產品中。
Google大模型Gemini 正式發布
Google DeepMind CEO 和共同創辦人Demis Hassabis 代表Gemini 團隊正式推出了大模型Gemini。
Hassabis 表示長久以來,Google一直想要建立新一代的AI 大模型。在他看來,AI 帶給人們的不再只是智慧軟體,而是更有用、更直覺的專家助理或助理。
今天,Google大模型Gemini 終於亮相了,成為有史以來打造的最強大、最通用的模型。Gemini 是Google各團隊大規模合作的成果,包括Google研究院的研究者。
特別值得關注的是,Gemini 是一個多模態大模型,意味著它可以泛化並無縫地理解、操作和組合不同類型的信息,包括文字、程式碼、音訊、圖像和視訊。
Google表示,Gemini 也是他們迄今為止最靈活的模型,能夠有效率地運行在資料中心和行動裝置等多類型平台上。Gemini 提供的SOTA 能力將顯著增強開發人員和企業客戶建立和擴展AI 的方式。
目前,Gemini 1.0 提供了三種不同的尺寸版本,分別如下:
Gemini Ultra:規模最大、能力最強,用於處理高度複雜的任務;
Gemini Pro:在各種任務上擴展的最佳模型;
Gemini Nano:用於端側(on-device)任務的最高效模型。
Google對Gemini 模型進行了嚴格的測試,並評估了它們在各種任務中的表現。從自然圖像、音訊和視訊理解,到數學推理等任務,Gemini Ultra 在大型語言模型研發被廣泛使用的32 個學術基準測試集中,在其中30 個測試集的性能超過當前SOTA 結果。
另外,Gemini Ultra 在MMLU(大規模多工語言理解資料集)的得分率高達90.0%,首次超越了人類專家。MMLU 資料集包含數學、物理、歷史、法律、醫學和倫理等57 個科目,用於測試大模型的知識儲備和解決問題能力。
針對MMLU 測試集的新方法使得Gemini 能夠在回答難題之前利用其推理能力進行更仔細的思考,相比僅根據問題的第一印像作答,Gemini 的表現有顯著改進。
在大多數基準測試中,Gemini 的效能都超越了GPT-4。
更多細節,請查看詳細的測試報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
在最新版本的MMMU 測試集中,Gemini Ultra 也取得了得分為59.4% 的最佳成績。增強版的測試集由需要慎重推理的多模態任務組成。
在影像基準方面的測試中,Gemini Ultra 不需要從影像中擷取文字就能進行OCR 處理,這凸顯了Gemin 內建的強大多模態能力,也初步顯示了Gemini 具有更複雜推理能力的先兆。
下一代全方位能力升級
Gemini 在設計時原生地支援多模態,從一開始便在不同模態上進行了預訓練,然後利用額外的多模態資料進行微調以提升有效性。因此,Gemini 能夠無縫地理解和推理各種輸入,遠遠優於現有多模態模型,而且它的能力在幾乎每個領域都是最強的。
複雜推理能力
Gemini 1.0 具有複雜多模態推理能力,可以幫助理解複雜的書面和視覺訊息。這使得它尤其擅長發現海量資料中難以辨別的知識。Gemini 1.0 透過閱讀、過濾和理解資訊具有了從數十萬份文件中提取insights 的超凡能力,這有助於科學、金融等諸多領域以超快的速度取得新突破。
同時理解文字、圖像、音訊以及更多模態的訊息
經過訓練,Gemini 1.0 可以同時辨識和理解文字、圖像、音訊等,因此它能夠更全面地理解輸入中資訊的細節,也能回答與複雜主題相關的問題。因此,它特別擅長對數學和物理等複雜學科的問題進行推理。
如下圖所示,一位老師畫了一個滑雪者從斜坡上下來的物理問題,而一位學生則提出了一個解決方案來計算滑雪者在斜坡底部的速度。利用Gemini的多模態推理能力,該模型能夠讀懂凌亂的筆跡,正確理解問題的表述,將問題和解決方案都轉換為數學公式,識別出學生在解決問題時出錯的具體推理步驟,然後給出問題的正確解決方案。
進階編碼
Gemini 可以理解、解釋和產生流行程式語言(如Python、Java、C++、Go)的高品質程式碼,具備強大的跨語言工作和推理複雜資訊的能力使其成為世界領先的編碼基礎模型之一。
Gemini Ultra 在多個編碼基準測試中表現出色,包括HumanEval(用於評估編碼任務性能的重要行業標準)和Natural2Code(Google內部數據集),該數據集使用作者生成的源代碼而不是基於網絡的信息。
Gemini 也可以用作更高級編碼系統的引擎。兩年前,Google推出了AlphaCode,這是第一個在程式設計競賽中達到競爭性等級的人工智慧程式碼產生系統。
使用Gemini 的專門版本,Google創建了更先進的程式碼生成系統AlphaCode 2,它擅長解決超出編碼範圍、涉及複雜數學和理論計算機科學的競爭性程式設計問題。
經過與原始AlphaCode 在相同平台上進行評估,AlphaCode 2 展現出巨大的改進,解決的問題數量幾乎是原來的兩倍。
專用TPU 訓練
Google使用內部設計的張量處理單元(TPU) v4 和v5e 在人工智慧優化基礎設施上對Gemini 1.0 進行了大規模訓練,並將其設計為最可靠、可擴展的訓練模型和最高效的服務模型。
在TPU 上,Gemini 的運行速度明顯快於早期規模較小、能力較弱的模型。這些客製化設計的AI 加速器是Google人工智慧產品的核心,這些產品為搜尋、YouTube、Gmail、Google地圖、Google Play 和Android 等數十億用戶提供服務。它們也幫助世界各地的公司經濟高效地訓練大規模人工智慧模型。
今天,Google同時發布了迄今為止最強大、最高效、可擴展的TPU 系統—Cloud TPU v5p,專為訓練尖端的人工智慧模型而設計。新一代TPU 將加速Gemini 的發展,幫助開發人員和企業客戶更快地訓練大規模生成式AI 模型,讓新產品和新功能更快與客戶見面。
Google 資料中心內一排的Cloud TPU v5p AI 加速器超級電腦。
Google旗下產品將全線升級
從今天開始,Google將在其產品中加入Gemini,例如Bard 將使用Gemini Pro 的微調版本來執行更高階的推理、規劃、理解等任務。這也是Bard 自推出以來最大的升級。
升級版Bard 將在170 多個國家/ 地區提供英文版本,並且在不久的將來擴展到更多模態,並支援更多種語言。
Google也將Gemini 引進了Pixel。Pixel 8 Pro 將是第一款運行Gemini Nano 的智慧型手機。
Pixel 8 Pro 在錄音機應用中使用Gemini Nano 來總結會議音頻,即使沒有網路連線也可以實現。
在接下來的幾個月中,Gemini 將陸續出現在Google更多的產品和服務中,包括搜尋、廣告、Chrome、Duet AI 等等。
Google表示已經在搜尋中試驗了Gemini,它使用戶的搜尋生成體驗(SGE) 速度更快,延遲減少了40%,同時品質也提升了。
使用指南及未來規劃
最後,開發者如何使用Gemini?
從12 月13 日開始,開發人員和企業客戶可以透過Google AI Studio 或Google Cloud Vertex AI 中的Gemini API 存取Gemini Pro。
從Pixel 8 Pro 裝置開始,Android 開發人員也可以透過AICore 使用Gemini Nano 進行建置。Android AICore 是Android 14 中的一項新系統服務,可處理模型管理、運行時、安全功能等,簡化使用者將AI 融入應用程式的工作。
AICore 透過Gemini Nano 實現低秩適應(LoRA) 微調。這個強大的概念使應用程式的開發人員能夠根據自己的訓練資料建立小型LoRA 適配器。LoRA 適配器由AICore 載入,從而產生針對應用程式自身用例進行微調的大型語言模型。
另外,Google劇透了Gemini Ultra 將會在不久後發布,以及Bard 的下一步升級計畫。
Gemini Ultra 模型目前正處於信任和安全檢查階段,包括由可信賴的外部各方組成的紅隊(red team),並使用微調和人類回饋強化學習(RLHF)進一步完善模型。
在這個過程中,Google會先向部分客戶、開發人員、合作夥伴以及安全和責任專家提供Gemini Ultra,供其進行早期實驗和回饋,然後在明年初向開發人員和企業客戶推出。
Gemini Ultra 是Google最大、功能最強大的模型,專為高度複雜的任務而設計。一般使用者體驗Gemini Ultra 的首個方式會是透過Bard Advanced,Google將在明年年初推出Bard Advanced。
Google表示,未來將努力擴展Gemini 的功能,包括在規劃和記憶方面的進步,以及增加上下文窗口以處理更多信息,從而做出更好的響應。
部落格連結:https://blog.google/technology/ai/google-gemini-ai/#scalable-efficient