Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

2023-12-08 Comments 0 Comment

谷歌憋了許久的大招,雙子座Gemini大模型終於發布!其中一圖一影片最引人注目:一圖,MMLU多任務語言理解資料集測試,Gemini Ultra不光超越GPT-4,甚至超越了人類專家。

AI即時對人類的塗鴉和手勢動作給予評論和吐槽,流暢還很幽默,最接近賈維斯的一集。

然鵝當大家從驚喜中冷靜下來,仔細閱讀隨之發布的60頁技術報告時,卻發現不妥之處。

(沒錯,沒有論文,OpenAICloseAI你開了個什麼壞頭啊)

在MMLU測驗中,Gemini結果下面灰色小字標稱CoT@32,展開來代表使用了思考鏈提示技巧、嘗試了32次選最好結果。

而作為對比的GPT-4,卻是無提示詞技巧、只試5次,這個標準下Gemini Ultra其實並不如GPT-4。

而原圖比例尺也有點不厚道了,90.0%與人類基準89.8%明明只差一點,y軸上卻拉開很遠。

HuggingFace技術主管Philipp Schmid用技術報告中揭露的數據修復了這張圖,這樣展示更公平恰當:

每到這種時候,總少不了表情包的老哥飛速趕到戰場:

但好在,同樣使用思維鏈提示技巧+32次嘗試的標準時,Gemini Ultra還是確實超越了GPT-4的。

Jeff Dean在一處討論中對這個質疑有所回應,不過大家並不買單。

另外,對於那段精彩視頻,也有人從開篇的文字免責聲明中發現了問題。

機器學習講師Santiago Valdarrama認為聲明可能暗示了展示的是精心挑選的好結果,而且不是即時錄製而是剪輯的。

後來谷歌在一篇部落格文章中解釋了多模態互動過程,幾乎承認了使用靜態圖片和多段提示詞拼湊,才能達成這樣的效果。

但不管怎麼樣,GoogleGemini的發布還是給了其他團隊很大信心,GPT-4從此不再是獨一無二、難以企及的存在了。

正如AI搜尋產品PerplexityAI創始人Aravind Srinivas總結:

1.Gemini證明了OpenAI以外的團隊可以搞出超越GPT-4的模型

2.訓練到位的密集模型可以超越GPT-4的稀疏模型架構

推論:從大教師模型蒸餾小尺寸密集模型會成為未來趨勢,實現效率和能力的最佳結合。

更多網友關心的話題是,這下子還有必要繼續為ChatGPT Plus付費每月20美元嗎? ?

目前,Gemini Pro版本已更新到Google聊天機器人Bard中,程度到底有沒有宣傳的好,可以看看實際情況。

Gemini真的超越ChatGPT?

首先明確一點,目前大家可以上手玩到的是Gemini Pro版本,也就是中盃,對標GPT-3.5。

對標GPT-4的大杯Gemini Ultra,要明年才出。

另外目前Gemini僅支援英文,中文和其他語言也是後面才會出。

雖然暫時玩不到Gemini Ultra,威斯康辛大學麥迪遜分校的副教授Dimitris Papailiopoulos找了個好方法:

把Gemini發佈時展示的原題發給GPT-4對比,結果14題中,GPT-4約獲得12分。

其中有兩題由於截圖沒辦法再清晰了,給GPT-4算0.5分。

還有一道數學題GPT-4做錯,其他題基本平手。

接下來,要說最能體現一個大模型綜合能力的,一定少不了寫程式碼。

根據大家的測試結果來看,Gemini程式設計等級還是有保證的。

有開發者測試用Pytorch實作一個簡單的CNN網絡,Gemini只用了2秒而且程式碼品質更高。

當然速度快可能是因為Bard搭載的Gemini Pro尺寸更小,GPT-4現在有多慢懂得都懂了。

但是下一項寫SQL語句方面,這位開發者就認為Gemini表現就不太行了。

不過對於廣大開發者來說還有一個好消息,在遵循指令方面,Gemini對比Bard升級之前可謂是史詩級進步。

提示工程師先驅Riley Goodside,先前想要Bard輸出純JSON格式前後不帶任何廢話,百般嘗試也不成功,最後需要假裝威脅AI不這麼做就鯊個無辜的人才行。

現在更新以後,只需要把要求說出來,無需任何提示詞技巧就能完成了。

Gemini還有一大賣點是多模態能力,針對開頭畫小鴨子的視頻,我們從中抽取了8個關鍵幀,分別進行提問,看看Gemini的表現有沒有那麼神奇。

(不確定影片中是Ultra還是Pro版本,現在只能測試Pro版本)

對於圖1-4,我們問的問題都是“What is this person doing?”,Gemini給的答案分別是:

可能在用馬克筆寫字,但不知道具體是什麼

在用鉛筆畫蛇,而且是一條眼鏡蛇

在用鉛筆畫烏龜,而且正處於畫畫的初期階段

在用黑色馬克筆畫鳥,臉朝左,頭朝右,站在樹枝上,翅膀沒有展開

對於圖1和圖2,的確判斷線索還不是很明顯,出現這樣的結果情有可原,不過圖3這個「烏龜」的答案就有些繃不住了。

至於圖4,至少可以肯定的是鴨子的確屬於鳥類,但它細節分析得還是欠缺了一些準確性。

而當我們拿出圖5的成型作品時,Gemini終於分析出了這是一隻鴨子,水波紋也分析對了。

但分析出的繪畫工具變成了鉛筆,頭的朝向問題也依然沒說對,喙被說成了張開的,還臆想出了一些蘆葦。

接下來是圖6和圖7的著色過程,一般情況下鴨子不會是藍色,所以我們問了Gemini圖片中有什麼異常(Is there anything abnormal?)。

針對圖6,Gemini給的回答不能說十分精準,只能說是驢唇不對馬嘴,還配上了一張風馬牛不相及的圖片。

針對圖7的成品,Gemini直接說沒毛病,該有的東西都有,背景也很真實,甚至沒忘繼續提根本不知道哪裡來的蘆葦。

但下面的一句「Here is the image you sent」就屬實令人費解了:

說Gemini沒看我們上傳的圖吧,讀出來的又的確是鴨子;說它看了吧,又給了完全不同的一張的圖說是我們傳上去的。

所以我們想到了用「深呼吸」和「一步一步解決」提示詞技巧看看能不能提高一下Gemini的表現,其中深呼吸正是適用於谷歌上一代大模型PaLM的提示詞。

結果這次的答案直接讓人笑了出來:

不正常的是,鴨子被畫到了紙上,鴨子是一種活的生物,在紙上是無法存在的…

影片的結尾,部落客還拿出了橡膠鴨子玩具,我們也拿這一幀(圖8)讓Gemini分析鴨子的材質。

結果橡膠倒是分析對了,但是藍色的鴨子被說成了黃色,難怪上一張圖會說沒有異常…

逐幀詢問完成後,我們又把8張圖放在一起詢問,結果也是只有鴨子說對了。

「打假」完這段影片後,我們又用之前拿來考察GPT-4V的「吉娃娃和鬆餅」圖給Gemini試了試。

結果Gemin直接擺爛,告訴我們所有的圖都是“吉娃娃坐在鬆餅上”,甚至連圖的數量都沒數對…

於是我們換了種問法,讓它告訴我們哪些是吉娃娃,哪些是鬆餅。

這次Gemini倒是誠實的很,直接告訴我們吉娃娃和鬆餅實在太像了自己區分不出來。

和藍色鴨子的問題一樣,「深呼吸」在這裡依然是沒起到什麼作用,Gemini還是連數量都搞不清楚。

而勉強解說了的8個(其實是6個,因為有兩個是重複的)圖,只有左下和右下兩張圖是對的,至於middle指的到底是哪一行,我們不得而知… …

或許是這樣細小的差別實在是難為Gemini了,我們接下來換一些圖形推理題試試。

第一題的前四個符號是由1-4這四個數字與鏡像後的結果拼接而成,所以下一個圖應該是5與其鏡像拼接,答案是C。 (藍色塊是為了方便觀察,傳給Gemini的圖中沒有)

這裡一開始還出現了一段小插曲:最開始的提示詞中是沒有最後一句話(注意字母不是符號本身)的,結果Gemini真的就把ABCD這四個字母當成了備選的符號。

調整後,Gemini前面給的分析基本上正確,可惜到最後選擇了錯誤選項D。

第二題,每個框中的第三個符號是前兩個的交集,答案為A。

結果Gemini研究起了這些表情,一番分析猛如虎,最後給的答案還是錯的。

兩題下來,一道對了百分之七八十,另一道完全錯誤,看來Gemini Pro的圖形推理能力還有很大提升空間。

不過如果把目光放到生活場景當中,Gemini的表現還是值得肯定的。

我們用ChatGPT(DALL·E)生成了一張包含雞肉、胡蘿蔔和黃瓜的圖片,Gemini正確地識別出了這三種食材,然後給出了很多種可以烹飪的菜餚,而且每個都配有圖片和教程連結。

這麼多測試結果看下來,回到最初的問題,有了Gemini還有必要為GPT-4付費嗎?

華頓商學院副教授Ethan Mollick給予一個不錯的建議:

沒有什麼理由再使用ChatGPT的免費版本了,現在已經被Bard和Claude超越,而且它們都是免費的。

但你或許應該繼續使用GPT-4,它仍然占主導地位,並且在必應(只有創意模式是GPT -4)中是免費的。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

明年將結合AlphaGo能力升級

除了Gemini實際效果,60頁技術報告中揭露的更多細節也是研究人員和開發者關注所在,

關於參數規模,隻公佈了最小的Nano版本,分為1.8B的Nano-1和3.25B的Nano-2兩個型號,4-bit量化,是蒸餾出來的,可以運行在本地設備如Pixel手機上。

Pro版本和Ultra版本規模保密,上下文視窗長度統一32k,注意力機制使用了Multi-Query Attention,此外沒有太多細節了。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

值得關注的是微調階段,報告中透露使用了SFT+RLHF的指令微調組合,也就是使用了ChatGPT的方法。

另外也引用了Anthropic的Constitutional AI,也就是結合了Claude的對齊方法。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

關於訓練資料也沒透露太多細節,但之前有傳聞指出谷歌刪除了教科書的有版權資料。

Gemini拖了這麼久才發,之前被曝光的消息還有不少,例如Google創辦人Sergey Brin一直親自下場對模型進行評估並協助訓練。

結合最近OpenAI Q*專案的傳聞,大家最關心的莫過於:

Gemini到底有沒有結合AlphaGo的能力?如RLHF以外更多的強化學習、搜尋演算法等。

關於這一點,DeepMind創始人哈薩克在最新接受連線雜誌採訪時做出了回應:

我們有世界上最好的密集學習專家…AlphaGo中的成果有望在未來改善模型的推理和規劃能力…明年大家會看到更多快速進步。

省流版本:還沒加,明年加。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

這次Gemini開發整合了原谷歌大腦和DeepMind兩個團隊,整個開發團隊有超過800人(作為對比,OpenAI整個公司約770人)。

其中核心貢獻者前六位的名字首字母,恰好組成了Gemini這個單詞,也算一個小彩蛋。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

許多參與者也在個人帳號發表了感想,其中DeepMind老員工Jack Rae此前在OpenAI工作一段時間,今年7月份從OpenAI跳回到谷歌,他可能是唯一一位對GPT-4和Gemini都有貢獻的人類了。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

也有反著跳的,中科大校友Jiahui Yu在10月份從谷歌跳去了OpenAI,之前擔任Gemini多模態團隊的視覺共同負責人。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

除了團隊成員之外,Gemini也是整個AI產業最大的話題。

其中著名OpenAI爆料帳號Jimmy Apples,@Sam Altman並暗示OpenAI還有沒發布的大招。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

而HuggingFace聯創Thomas Wolf認為,Google錯過了一個重要機會:

如果Gemini開源,對OpenAI和Meta來說都是一記絕殺,上一次谷歌開源Bert的時候,整個AI行業都被重塑了。

谷歌Gemini剛發就惹質疑:測試標準有失偏頗、效果視頻疑剪輯

Gemini技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

參考連結:

[1]https://x.com/AravSrinivas/status/1732427844729581764

[2]https://x.com/DimitrisPapail/status/1732529288493080600

[3]https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[4]https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[5]https://x.com/ScottDavidKeefe/status/1732440398423867472

[6]https://x.com/goodside/status/1732461772794220919

[7]https://x.com/emollick/status/1732485517692776714

來源:量子位

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
Robinhood將在歐盟推出免佣金加密貨幣交易系統
NEXT
微軟在最新Windows版本中取消了Vista時代的語音辨識功能

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 12 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 11 月   1 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 韋伯望遠鏡改變了我們對亞海王星的認知:小型、高溫、富含氣體 2025-05-14
  • 美聯航成為全面部署Starlink高速機上Wi-Fi的最大航空公司 2025-05-14
  • Google正在其主頁上測試AI搜尋功能取代“手氣不錯” 2025-05-14
  • OpenAI考慮在阿聯酋建造資料中心川普中東之行期間或官方宣布 2025-05-14
  • 晶片巨擘助力沙烏地阿拉伯建AI工廠:英偉達供1.8萬晶片AMD也參與 2025-05-14
  • YouTube 將免費播放NFL 開幕週比賽 2025-05-14
  • TikTok 推出全新影像轉影片工具TikTok AI Alive 2025-05-14
  • OpenAI的重組計畫獲軟銀認可現在目光都聚焦在微軟 2025-05-14
  • 馬斯克稱沙烏地阿拉伯已批准「星鏈」服務 2025-05-14
  • 西部數據聯手Cerabyte押注陶瓷奈米層技術打造超耐用儲存設備 2025-05-14

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • 巴西總統盧拉見證美團簽署10億美元投資協議Keeta宣布進入巴西市場
  • 2024全球晶片公司排行:NVIDIA居首英飛凌、義法半導體跌出前十
  • 蘋果今年將為台積電貢獻1兆新台幣營收
  • Manus回應開放註冊:海外用戶已取消等候名單國內產品尚未發布
  • 台積電美國三座新廠產能預訂一空蘋果、NVIDIA、AMD搶著要
  • 任天堂內部洩漏檔案揭露Switch2遊戲金鑰卡氾濫內幕
  • 川普與蘋果CEO庫克通話據報iPhone今年稍晚或漲價
  • 亞馬遜與聯邦快遞重啟合作達成大型商品配送協議
  • Manus開放註冊用戶每天可免費執行一項任務

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.