Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

DeepMind CEO揭密超進化體融進AlphaGo 明年問世

DeepMind CEO揭密超進化體融進AlphaGo 明年問世

2023-12-12 Comments 0 Comment

Google帶著Gemini真的來了,多模態能力震撼全網。下一代模型將融合AlphaGo深度強化學習技術,2024年問世。真正可以叫板GPT-4的模型,當屬Google Gemini。Gemini一經放出,強大的多模態能力演示刷屏全網,而GPT-5的話題瞬間也被推上了熱搜。

丟掉PaLM 2,GoogleBrad、辦公室全家桶等全線產品也將脫胎換骨,得到Gemini的加持。

Google官方稱,Gemini Ultra超大杯將在明年發布。

而在Gemini正式放出之前,就有接觸過內部測試的人評論到,「2023年如果是大模型元年的話,2024年很有可能是Gemini年」。

正如GoogleDeepMind負責人Demis Hassabis所說,Gemini的時代來臨了。

據透露,AlphaGo深度強化學習技術正在融入Gemini模型中,2024年的下一個版本將會超級進化。

32k上下文,三種杯型

ChatGPT誕生後風頭無兩,讓退居幕後的共同創辦人Sergey Brin心急。

7月,他曾爆出重回公司參與下一代AI系統的研發。

Gemini論文作者列表中,他的名字赫然在列。

按一下以存取 gemini_1_report.pdf

關於60頁Gemini技術報告,網友做了一個濃縮版。

1. 用Jax編寫,使用TPU進行訓練。雖然沒有詳細解釋,但其架構似乎與Flamigo類似。

2. Gemini Pro的性能類似GPT-3.5,而Gemini Ultra據說優於GPT-4。Nano-1(1.8B 參數)和Nano-2(3.25B 參數)設計為在終端設備上運作。

3. 32K上下文長度。

4. 非常擅長理解視覺和語音。

5. 編碼能力:與GPT-4相比,HumanEval的大幅躍升(74.4% Vs 67%)。不過,Natural2Code基準顯示的差距要小得多(74.9% Vs 73.9%)。

6. 關於MMLU:用COT@32(32個樣本)來說明Gemini優於GPT-4似乎有些勉強。在5個樣本設定中,GPT-4更勝一籌(86.4% Vs 83.7%)。

7. 除了確保「所有資料濃縮工人至少獲得當地生活工資」之外,沒有關於訓練資料的任何資訊。

Gemini模型中盃、大杯、超大杯三種體量模型在不同能力上的語言理解與生成表現。

以下幾張圖,是關鍵對比數據。

Gemini在文字基準上的效能,與外部模型和PaLM 2-L的比較。

在影像理解方面,Gemini Ultra始終優於所有的模型。
在影像理解方面,Gemini Ultra始終優於所有的模型。

語音基準上的評估結果,Gemini Pro在語音識別,以及自動語音翻譯都優於其他模型。

網友點評

交錯文字圖像生成

一位開發者Brian Roemmele發現Gemini Ultra確實略勝一籌。

根據技術報告,Gemini Ultra模型是在YouTube資料上進行深度訓練的,因此它可以從影片(《駭客任務》)中的一個場景推斷出一系列靜態圖像,並從中寫出文字敘述。

而Roemmele在ChatGPT-4 Turbo上進行了測試後,發現它無法推理出這樣的輸出結果。

Gemini Ultra也會以圖像和文字結合的方式回應。這就是所謂的「交錯文字和圖像生成」。

之所以能做到這一點,是因為模型是在多模態輸入的基礎上訓練出來的。

下面這個便是Gemini Ultra,從毛線球到編織完成文字與圖像的生成。

多模態+工具

在這個樣本中,我們看到Gemini Ultra在執行一項任務時,充分發揮了多模態訓練和微調的威力。

這種協同作用的發展規模在目前的人工智慧模型中尚屬首次。它將多模態與工具使用結合:畫圖搜尋音樂。

揭秘“魔術”

更厲害的是,Gemini Ultra還可以看懂魔術。

Roemmele表示,透過對經典魔術的辨別,可以看到了Gemini統一多模態模型的特徵。由於模型中的YouTube影片訓練,它可以理解序列並透過邏輯得出結論。

接下來,就是見證奇蹟的時刻了。給到一個右手拿硬幣的圖,讓Gemini去描述。

把硬幣變沒後,Gemini Ultra能夠一步步總結剛剛所看的所有過程。

最後,根據邏輯推理出結果。

Gemini多模態做題

Reddit一位網友上傳了一張截圖,他自己稱這是在Gemini下實測的結果。

圖中是一名高中生解答物理題的過程,他請Gemini對解題過程進行批改,如果有誤就讓他做出正確答案。

Gemini讀出了圖中學生解題思路的問題,並且成功地做出了答案。

而我們自己在把同一題給到GPT-4,它第一次嘗試回答時,到一半突然「夾住了」。

當要求它重新回答時,GPT-4才正確地判斷了學生的解題思路有問題,並給出了正確答案。

而同樣的情況在Reddit網友身上也發生了。

Gemini Nano將大模型戰火燒到了手機端

而這次Google發布的Gemini,不僅是對OpenAI用GPT-4定義的「大模型SOTA」的回應,還直接將大模型的戰火燒到了移動端,現在壓力來到了蘋果這邊。

Gemini的三個版本Ultra Pro Nano,針對從資料中心到手機都進行了最佳化,可以應對不同使用者在不同使用情境下的各種需求。

Gemini Nano是Google為行動裝置上任務所建構的最高效模型。現在它已經可以在Google的Pixel 8 Pro上運作。

作為首款專為Gemini Nano設計的智慧型手機,Pixel 8 Pro利用Google的人工智慧Soc Tensor G3的強大功能提供兩項擴充功能:記錄器中的摘要和Gboard中的智慧回應。

在本地運行的Gemini Nano可以讓用戶的敏感資料不離開離開手機,並在沒有網路連線的情況下使用大模型能力。

除了現在已經能在Pixel 8 Pro上運行的Gemini Nano之外,未來透過Bard的智慧助理功能,Pixel手機可以解鎖更強大的Gemini版本。

在Recorder中進行總結

Gemini Nano現在可以為Pixel 8 Pro 上的錄音機中的內容進行AI總結。

使用者可以在不連網的情況直接對自己錄製的對話、訪談、簡報等內容的產生摘要。

這個功能可以幫助用戶將之前自己記錄下來的冗長內容語音內容快速清晰地梳理出來,方便進一步的使用和整理,不得不說真的非常方便。

透過Gboard能在用戶的聊天中進行智慧回复

在Pixel 8 Pro中,Gemini Nano可以支援Gboard中的智慧型回覆功能。

在手機上的AI模型現在可以在WhatsApp上試用,明年將推出更多應用程序,可以透過對話感知能力提出高質量的回复,節省用戶大量的時間。

Gemini時代來臨了

身為GoogleDeepMind的領導人,Demis Hassabis也是興奮不已,並表示「Gemini的時代來臨了」。

在最新Wired的訪談中,Hassabis直言道,Google今天宣布的人工智慧模式Gemini為人工智慧開闢了一條未被實踐的道路,可能會帶來重大的新突破。

「身為神經科學家和電腦科學家,多年來我一直想嘗試創造一種新一代的人工智慧模型。而這些模型的靈感來自我們所有感官互動和理解世界的方式」。

「Gemini是邁向這個『多模態』模式的一大步」。

他繼續說,「到目前為止,大多數模型都是透過訓練單獨的模組,然後將其拼接在一起,來實現多模態能力」。

「對於某些任務來說,這是可以的,但是在多模態空間中,無法進行深度複雜推理」。

這似乎是在暗指OpenAI的技術。

我們都知道,ChatGPT的多模態能力,是由GPT-4、DALL·E 3、Whisper多個模型組合而實現的。

今年5月的Google開發者大會I/O上,劈柴首次官宣,Google正在訓練一個新的、更強大的PaLM繼任者,名為Gemini。

Gemini的命名也有深層的寓意,是為了紀念Google大腦和DeepMind兩個團隊實驗室的合體,並向美國太空總署Gemini致敬。

7個月的時間,關於Gemini的各種爆料也是層出不窮。

而現在,Google以驚人的速度研發出Gemini,著實在年底前來了一次重磅反擊。

Hassabis說,新模型能夠處理不同形式的數據,包括文字以外的數據,這是該專案從一開始就願景的關鍵部分。

許多人工智慧研究人員認為,能夠利用不同格式的數據是自然智慧的關鍵能力,而這正是機器所缺乏的。

ChatGPT等AI大模型因從強大的網路數據中學習,獲得了靈活且強大的泛化能力。

但是,儘管ChatGPT和類似的聊天機器人(11.880, 0.19, 1.63%)可以用同樣的技巧,來討論或回答有關物理世界的問題,但這種表面上的理解很快就會瓦解。

許多人工智慧專家認為,要讓機器智慧有重大進步,就需要AI系統在物理現實中賦予身體,也就是「具身」。

Hassabis表示,GoogleDeepMind已經在研究,如何將Gemini與機器人技術結合,與世界進行物理互動。

「要實現真正的多模態,你需要包括觸覺和觸覺回饋。將這些基礎型模型應用於機器人技術有很多希望,我們正在大力探索」。

目前,Google已經朝著這個方向邁出了一小步。

5月,該公司宣布了一款名為Gato的AI模型,能夠學習執行各種任務,包括玩Atari遊戲、為圖像添加字幕,以及使用機械手臂堆疊積木。

今年7月,GoogleRT-2機器人模型,便是透過語言模型來幫助機器人理解和執行動作。

為了讓AI智能體更可靠,就需要為其提供動力的演算法必須更加智慧。

前段時間,OpenAI曾被曝出開發一個名為“Q*”的項目,網友紛紛猜測可能用到了“強化學習”,這是AlphaGo的核心技術。

不過,Hassabis稱,Google目前正在按照類似的想法進行研究。

AlphaGo的進步有望幫助改善未來模型的規劃和推理,就像今天推出的模型一樣。我們正在努力進行一些有趣的創新,以將其帶入Gemini的未來版本。

「明年,你將會看Gemini超強進化」。

看來,正如網友所說,我們離GPT-5降臨的那一天也不遠了。

參考資料:

Introducing Gemini 1.0, our most capable and general AI model yet. Built natively to be multimodal, it’s the first step in our Gemini-era of models. Gemini is optimized in three sizes – Ultra, Pro, and Nano

Gemini Ultra’s performance exceeds current state-of-the-art results on… pic.twitter.com/pzIw6iCPPN

— Sundar Pichai (@sundarpichai) December 6, 2023

https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
SpaceX「星鏈」通過美國空軍北極測試
NEXT
庫迪咖啡越南首店開幕開在了星巴克旁邊

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 12 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 11 月   1 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 中國新創公司曾淡化出身如今一些新創公司卻開始自豪於這一點 2025-05-18
  • 《生化危機9》為何遲遲不公佈?可能是優化問題 2025-05-18
  • 任天堂解釋《瑪利歐賽車:世界》成為首發遊戲的原因 2025-05-18
  • 墨西哥海軍大型帆船撞布魯克林大橋造成55人受傷 2025-05-18
  • 新型火山預警系統在爆發前就能聽到地球的聲音 2025-05-18
  • 洋紅色極光和陷入錯亂的衛星:接管了美國宇航局演習的甘農太陽風暴 2025-05-18
  • 新研究顯示瓦薩奇斷層比之前認為的更危險下一次強震遲早會發生 2025-05-18
  • iPhone 17 Air 電池容量和重量資訊外洩 2025-05-18
  • 華為nova 14系列明天發布:三款機型樣機到店提前拆罰20萬起 2025-05-18
  • 中國電信5G-A套餐正式商用:比5G快10倍更穩定 2025-05-18

熱門文章與頁面︰

  • 「多喝水」真的有用研究顯示有助於減肥、治療腎結石
  • 美國議員稱TP-Link超低價助長中國網路攻擊支持銷售禁令
  • 北京地鐵扶梯上多了兩隻黃色腳印不必“左行右立”
  • 《不可能的任務8:最終清算》定檔5月30日阿湯哥最後一搏震撼打響
  • CentOS7.2 调整mysql数据库最大连接数
  • "91大神"偷拍百名女性獲刑:曾任外企高管年薪百萬
  • Bungie承認《馬拉松》素材抄襲有可能會跳票
  • 洋紅色極光和陷入錯亂的衛星:接管了美國宇航局演習的甘農太陽風暴
  • 劉強東捐贈京東群學大樓啟用8年前捐3億創紀錄
  • NVIDIA中國特供晶片懸念再起黃仁勳確認H20已無法再改

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.