Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

谷歌Gemini大逆轉?史丹佛Meta華人證明其推理表現強於GPT-3.5

谷歌Gemini大逆轉?史丹佛Meta華人證明其推理表現強於GPT-3.5

2024-01-03 Comments 0 Comment

Google放出的Gemini,似乎一直處於對標GPT 的道路上劣勢,Gemini 真的比GPT-4 弱嗎?最近,史丹佛和Meta 的學者發文為Gemini 正名。Gemini 的推理能力,真的比GPT-4 弱嗎?先前,Google憋出的重磅復仇神器Gemini Pro,被發現在常識推理任務中落後OpenAI 的GPT 模型。

之後又有CMU 發布的論文和實驗,證明Gemini Pro 的許多能力都略微落後於GPT-3.5 Turbo。

不過最近,史丹佛和Meta 的學者為Gemini 洗清了這項「冤屈」。

他們發現,這種基於有限資料集(HellaSWAG)的評估,並不能完全捕捉到Gemini 真正的常識推理潛力。

論文地址: https://arxiv.org/ abs / 2312.17661

而在新測試集中,Gemini 的推理能力比之前強很多!

Gemini 的真正潛力

史丹佛和Meta 的研究人員表示,以前的基於有限數據集的評估,對於Gemini 不夠公平。

這次,研究人員設計了一個需要跨模態整合常識知識的任務,以對Gemini 在複雜推理任務中的表現進行徹底的評估。

研究人員對12 個常識推理資料集進行了全面分析,從一般任務到特定領域的任務。

在其中的4 個LLM 實驗和2 個MLLM 實驗中,研究者證明了Gemini 具有目前相當強的常識推理能力。

研究者對於目前流行的四大模型—Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和GPT-4 Turbo 進行了評估,

他們發現,整體而言,Gemini Pro 的效能和GPT-3.5 Pro 相當,準確度上落後於GPT-4 Turbo。

實驗

數據集

實驗中採用了12 個與不同類型的常識推理相關的資料集,包括11 個基於語言的資料集和一個多模態資料集。

基於語言的資料集包括三大類常識推理問題:

1.一般推理與情境推理:CommonsenseQA,著重於一般常識知識;Cosmos QA,強調語境理解敘事;αNLI,引入演繹推理,包括推斷最合理的解釋;HellaSWAG,以上下文事件序列的推理為中心。

2.專業推理與知識推理:TRAM,測試關於時間的推理;NumerSense,著重於數值理解;PIQA,評估物理交互作用知識;QASC,處理與科學相關的推理;RiddleSense,透過謎語挑戰創造性思考。

3.社會和道德推理:Social IQa,測試對社會互動的理解;ETHICS,評估道德和倫理推理。

對於多模態資料集(視覺和語言),這裡選擇VCR,一個用於認知層次視覺理解的大規模資料集。

對於包含多個任務的TRAM 和ETHICS 等資料集,研究人員提取了實驗的常識推理部分。

實驗中採用準確性作為所有資料集的效能指標。下表給出了資料集的概述以及範例問題。

模型

採用最受歡迎的四個大模型:開源的Llama-2-70b-chat 和閉源的Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每個模型都使用對應的API 金鑰進行存取:透過Google Vertex AI 存取Gemini,透過OpenAI API 存取GPT,透過DeepInfra 存取Llama2。

對於多模態資料集,實驗中考慮了GPT-4V(API 中的gpt-4-vision-preview)和Gemini Pro Vision(API 中的gemini-pro-vision)。

考慮到API 成本和速率的限制,研究人員從每個基於語言的資料集的驗證集中隨機選擇了200 個範例,從VCR 資料集的驗證集中隨機選擇了50 個範例。

對於所有評估,在模型響應生成期間採用貪婪解碼(即溫度= 0)。

提示

在評估基於語言的資料集時,研究人員採用了兩種提示設定:零樣本標準提示(SP),旨在衡量模型在語言環境中的固有常識能力,以及少樣本思維鏈(CoT)提示,用於觀察模型性能的潛在增強。

對於多模態資料集,利用零樣本標準提示,來評估MLLM 的端對端視覺常識推理能力。

結果

整體的效能比較結果如下表所示:

從模型的角度來看,GPT-4 Turbo 的平均表現最好。在零樣本學習中,它比第二名的Gemini Pro 高出7.3%,在少樣本學習中優勢更大(9.0%)。

而Gemini Pro 的平均準確率略高於GPT-3.5 Turbo(0-shot,SP 下高1.3%,k-shot,CoT 下高1.5%)。

關於提示方法,CoT 提高了所有資料集的效能,在CommonsenseQA、TRAM 和Social IQa 等資料集中有明顯的效益。

下表是在多模態VCR 資料集上的效能比較:

VCR 的三個子任務分別為:Q → A,根據視覺脈絡產生問題的答案;QA → R,要求模型為給定的答案提供基本原理;Q → AR,既要回答問題,又要用適當的理由來證明回答的合理性。

將11 個基於語言的資料集分為三組,在圖1 中展示了每組中每種設定的效能。

研究結果表明,GPT-4 Turbo 在所有類別的性能方面始終領先。

Gemini Pro 和GPT-3.5 Turbo 的表現相當;不過,Gemini Pro 在三個組別中的兩個組別中,略勝於GPT-3.5 Turbo。

總體而言,所有模型在處理社會和道德推理資料集方面,都表現出強大的能力。

然而,它們在一般推理和語境推理任務上的表現,有顯著差異。

這也表明,它們對更廣泛的常識原則,及其在不同背景下的應用理解,存在潛在差距。

而在專業和知識推理類別,特別是在時間和基於謎語的挑戰領域,模型在處理複雜時間序列、破解謎語所需的抽象和創造性思維能力上,都表現出了缺陷。

關於多模態資料集,圖2 詳細介紹了GPT-4V 和GeminiPro Vision 在不同問題類型上的效能比較。

我們可以看到,在最後一個關於時間類別的問題上,GeminiPro Vision 實現了反超。

MLLM 的推理正當性

為了評估MLLM 的推理能力,尤其是不僅提供正確答案,還能就常識問題提供合理且基於上下文推理的能力,研究者採用了系統抽樣方法。

對於評估四個LLM 的11 個基於語言的資料集,研究者隨機選擇了30 個回答正確的問題,和30 個回答錯誤的問題。

如果資料集提供的錯誤答案少於30 個,研究者就會包含所有可用的錯誤答案,以確保分析的全面性。

選擇這些問題後,他們會讓每個模型解釋:「問題答案背後的基本原理是什麼?」 然後手動檢查模型提供的推理過程,並根據其邏輯合理性和與問題的相關性被判為True 或False。

圖3 顯示,GPT-4 Turbo 在正確和錯誤的答案上,都顯示出先進的推理機制,即使最終答案不準確,它也有保持邏輯連貫的能力。

另外,Gemini Pro 也展現了值得稱讚的推理能力,提供了全面的常識推理方法。

下圖展示了Gemini Pro 和GPT-3.5 的兩個真實範例,展現了正確答案和正確理由,以及錯誤答案和錯誤理由的情況。

範例問題來自QASC 資料集,紅色粗體為正確答案。在上圖中,Gemini Pro 表現出有條不紊的推理,仔細考慮所有選項以得出最合乎邏輯的結論。

相反,由於GPT-3.5 Turbo 對非常規邏輯的傾向,導致了富有想像但不正確的答案。

這顯示不同模型應對常識推理任務的不同策略,有自己的獨特能力和限制。

Gemini Pro 的常識推理能力

一般常識(CommonsenseQA)

在使用CommonsenseQA 數據集的一般常識評估中,有這樣一道示例問題:“當你是陌生人時,人們會怎樣?”

A.火車B.奇怪C.人類D.愚蠢E.危險

Gemini Pro 選擇了B。

它的推理過程也值得注意:它認識到,雖然所有選項都和「陌生人」的概念相關,但只有「奇怪」準確概括了問題的中立和開放性本質。

這個選擇,凸顯出了Gemini Pro 解釋和應用一般常識知識的能力。

時間(TRAM)

TRAM 資料集的時間常識評估中的範例問題:“他也承諾會來找他。”

他需要多長時間才能「來到他身邊」?

A.100 年B.一分鐘內C.幾個小時

由於缺乏足夠的背景信息,特別是關於所涉及的身份和「來到」的含義,Gemini Pro 無法提供明確的答案。

這說明了,模型需要依賴特定的上下文訊息,來做出準確的時間判斷。

在現實世界訊息的傳播中,模糊或不完整的訊息,也會造成這種限制。

社交(Social IQa)

在使用Social IQa 資料集評估GeminiPro 在社會常識推理方面的表現時,出現了一個有趣的場景: 人們一直欺負在Sasha,Sasha 報復了回去,接下來人們會做什麼?

A.照Sasha 說的去做B.報仇C.逃離Sasha

正確答案是C,但Gemini Pro 的選擇卻顯得很有洞察力。

它選擇了B,理由是Sasha 的行動很可能點燃了人們復仇的慾望。

這項回應表明,Gemini Pro 對於社會動態和情感動機有了細緻的理解。

Visual(VCR)

在VCR 資料集中,研究者分析了Gemini Pro Vision 對涉及人身安全和潛在危險場景的反應。

如果此時4 號推了3 號,會發生什麼事?

Gemini Pro Vision 答:3 號會掉下懸崖,危及生命。

這個結果表明,Gemini Pro Vision 已經能夠做出視覺常識推理,分析視覺場景並預測這些場景中動作的潛在後果。

這顯示模型已經掌握了空間關係和物理後果,具備了類似人類認知的複雜視覺資訊能力。

作者介紹

Yuqing Wang 目前是史丹佛大學的博士後研究員。

此前,她在明尼蘇達大學獲得學士學位,並在加州大學聖芭芭拉分校獲得博士學位。

Yun Zhao 目前是Meta 的研究員,研究方向是機器學習(包括深度學習與強化學習)的應用、人工智慧與資料探勘。

此前,他在清華大學獲得碩士學位,並且同樣在加州大學聖芭芭拉分校獲得博士學位。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
馬斯克預言:2024年世界將變得“更加瘋狂”
NEXT
德國航運巨頭:將繼續避開紅海航線至少一周

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 1 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
293031  
« 12 月   2 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 川普結束與普丁長達兩小時的通話稱俄烏將立即開始停火談判 2025-05-20
  • 蘋果或將被迫將《要塞英雄》重新上架美國區App Store 2025-05-20
  • Apple Filling 檔案共享協定即將從macOS 中徹底消失 2025-05-20
  • Google簽署另一項大規模太陽能協議為其資料中心供電 2025-05-20
  • 研究發現當人工智慧知道你是誰之後就能輕易在辯論中擊敗你 2025-05-20
  • 法官命令蘋果遵守2021年”反轉向”禁令否則將被請回法庭 2025-05-20
  • 摩根大通CEO傑米戴蒙宣布銀行將允許客戶購買比特幣 2025-05-20
  • 世界上第一隻基因編輯蜘蛛產出紅色螢光絲 2025-05-20
  • DELL Pro Max Plus頂級性能本發布可在家中實現雲端等級的AI效能 2025-05-20
  • 微軟員工再次擾亂Satya Nadella 的主題演講 2025-05-20

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Red Hat Enterprise Linux 10 正式發布
  • Adobe Zii v4.5.0 CC 2019/5.1.4 2020 Universal Patcher Mac- Adob​​e for Mac激活工具
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • 網站未在Google上顯示(未編入索引)的可能原因及解決方案
  • GaN-on-Si和GaN-on-SiC的路線之爭
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 揭密蘋果製造工廠:每年的支出可以造兩艘航母
  • 三星Galaxy S25 系列官方桌布下載

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.