谷歌Gemini大逆轉?史丹佛Meta華人證明其推理表現強於GPT-3.5
Google放出的Gemini,似乎一直處於對標GPT 的道路上劣勢,Gemini 真的比GPT-4 弱嗎?最近,史丹佛和Meta 的學者發文為Gemini 正名。Gemini 的推理能力,真的比GPT-4 弱嗎?先前,Google憋出的重磅復仇神器Gemini Pro,被發現在常識推理任務中落後OpenAI 的GPT 模型。
之後又有CMU 發布的論文和實驗,證明Gemini Pro 的許多能力都略微落後於GPT-3.5 Turbo。
不過最近,史丹佛和Meta 的學者為Gemini 洗清了這項「冤屈」。
他們發現,這種基於有限資料集(HellaSWAG)的評估,並不能完全捕捉到Gemini 真正的常識推理潛力。
論文地址: https://arxiv.org/ abs / 2312.17661
而在新測試集中,Gemini 的推理能力比之前強很多!
Gemini 的真正潛力
史丹佛和Meta 的研究人員表示,以前的基於有限數據集的評估,對於Gemini 不夠公平。
這次,研究人員設計了一個需要跨模態整合常識知識的任務,以對Gemini 在複雜推理任務中的表現進行徹底的評估。
研究人員對12 個常識推理資料集進行了全面分析,從一般任務到特定領域的任務。
在其中的4 個LLM 實驗和2 個MLLM 實驗中,研究者證明了Gemini 具有目前相當強的常識推理能力。
研究者對於目前流行的四大模型—Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和GPT-4 Turbo 進行了評估,
他們發現,整體而言,Gemini Pro 的效能和GPT-3.5 Pro 相當,準確度上落後於GPT-4 Turbo。
實驗
數據集
實驗中採用了12 個與不同類型的常識推理相關的資料集,包括11 個基於語言的資料集和一個多模態資料集。
基於語言的資料集包括三大類常識推理問題:
1.一般推理與情境推理:CommonsenseQA,著重於一般常識知識;Cosmos QA,強調語境理解敘事;αNLI,引入演繹推理,包括推斷最合理的解釋;HellaSWAG,以上下文事件序列的推理為中心。
2.專業推理與知識推理:TRAM,測試關於時間的推理;NumerSense,著重於數值理解;PIQA,評估物理交互作用知識;QASC,處理與科學相關的推理;RiddleSense,透過謎語挑戰創造性思考。
3.社會和道德推理:Social IQa,測試對社會互動的理解;ETHICS,評估道德和倫理推理。
對於多模態資料集(視覺和語言),這裡選擇VCR,一個用於認知層次視覺理解的大規模資料集。
對於包含多個任務的TRAM 和ETHICS 等資料集,研究人員提取了實驗的常識推理部分。
實驗中採用準確性作為所有資料集的效能指標。下表給出了資料集的概述以及範例問題。
模型
採用最受歡迎的四個大模型:開源的Llama-2-70b-chat 和閉源的Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。
每個模型都使用對應的API 金鑰進行存取:透過Google Vertex AI 存取Gemini,透過OpenAI API 存取GPT,透過DeepInfra 存取Llama2。
對於多模態資料集,實驗中考慮了GPT-4V(API 中的gpt-4-vision-preview)和Gemini Pro Vision(API 中的gemini-pro-vision)。
考慮到API 成本和速率的限制,研究人員從每個基於語言的資料集的驗證集中隨機選擇了200 個範例,從VCR 資料集的驗證集中隨機選擇了50 個範例。
對於所有評估,在模型響應生成期間採用貪婪解碼(即溫度= 0)。
提示
在評估基於語言的資料集時,研究人員採用了兩種提示設定:零樣本標準提示(SP),旨在衡量模型在語言環境中的固有常識能力,以及少樣本思維鏈(CoT)提示,用於觀察模型性能的潛在增強。
對於多模態資料集,利用零樣本標準提示,來評估MLLM 的端對端視覺常識推理能力。
結果
整體的效能比較結果如下表所示:
從模型的角度來看,GPT-4 Turbo 的平均表現最好。在零樣本學習中,它比第二名的Gemini Pro 高出7.3%,在少樣本學習中優勢更大(9.0%)。
而Gemini Pro 的平均準確率略高於GPT-3.5 Turbo(0-shot,SP 下高1.3%,k-shot,CoT 下高1.5%)。
關於提示方法,CoT 提高了所有資料集的效能,在CommonsenseQA、TRAM 和Social IQa 等資料集中有明顯的效益。
下表是在多模態VCR 資料集上的效能比較:
VCR 的三個子任務分別為:Q → A,根據視覺脈絡產生問題的答案;QA → R,要求模型為給定的答案提供基本原理;Q → AR,既要回答問題,又要用適當的理由來證明回答的合理性。
將11 個基於語言的資料集分為三組,在圖1 中展示了每組中每種設定的效能。
研究結果表明,GPT-4 Turbo 在所有類別的性能方面始終領先。
Gemini Pro 和GPT-3.5 Turbo 的表現相當;不過,Gemini Pro 在三個組別中的兩個組別中,略勝於GPT-3.5 Turbo。
總體而言,所有模型在處理社會和道德推理資料集方面,都表現出強大的能力。
然而,它們在一般推理和語境推理任務上的表現,有顯著差異。
這也表明,它們對更廣泛的常識原則,及其在不同背景下的應用理解,存在潛在差距。
而在專業和知識推理類別,特別是在時間和基於謎語的挑戰領域,模型在處理複雜時間序列、破解謎語所需的抽象和創造性思維能力上,都表現出了缺陷。
關於多模態資料集,圖2 詳細介紹了GPT-4V 和GeminiPro Vision 在不同問題類型上的效能比較。
我們可以看到,在最後一個關於時間類別的問題上,GeminiPro Vision 實現了反超。
MLLM 的推理正當性
為了評估MLLM 的推理能力,尤其是不僅提供正確答案,還能就常識問題提供合理且基於上下文推理的能力,研究者採用了系統抽樣方法。
對於評估四個LLM 的11 個基於語言的資料集,研究者隨機選擇了30 個回答正確的問題,和30 個回答錯誤的問題。
如果資料集提供的錯誤答案少於30 個,研究者就會包含所有可用的錯誤答案,以確保分析的全面性。
選擇這些問題後,他們會讓每個模型解釋:「問題答案背後的基本原理是什麼?」 然後手動檢查模型提供的推理過程,並根據其邏輯合理性和與問題的相關性被判為True 或False。
圖3 顯示,GPT-4 Turbo 在正確和錯誤的答案上,都顯示出先進的推理機制,即使最終答案不準確,它也有保持邏輯連貫的能力。
另外,Gemini Pro 也展現了值得稱讚的推理能力,提供了全面的常識推理方法。
下圖展示了Gemini Pro 和GPT-3.5 的兩個真實範例,展現了正確答案和正確理由,以及錯誤答案和錯誤理由的情況。
範例問題來自QASC 資料集,紅色粗體為正確答案。在上圖中,Gemini Pro 表現出有條不紊的推理,仔細考慮所有選項以得出最合乎邏輯的結論。
相反,由於GPT-3.5 Turbo 對非常規邏輯的傾向,導致了富有想像但不正確的答案。
這顯示不同模型應對常識推理任務的不同策略,有自己的獨特能力和限制。
Gemini Pro 的常識推理能力
一般常識(CommonsenseQA)
在使用CommonsenseQA 數據集的一般常識評估中,有這樣一道示例問題:“當你是陌生人時,人們會怎樣?”
A.火車B.奇怪C.人類D.愚蠢E.危險
Gemini Pro 選擇了B。
它的推理過程也值得注意:它認識到,雖然所有選項都和「陌生人」的概念相關,但只有「奇怪」準確概括了問題的中立和開放性本質。
這個選擇,凸顯出了Gemini Pro 解釋和應用一般常識知識的能力。
時間(TRAM)
TRAM 資料集的時間常識評估中的範例問題:“他也承諾會來找他。”
他需要多長時間才能「來到他身邊」?
A.100 年B.一分鐘內C.幾個小時
由於缺乏足夠的背景信息,特別是關於所涉及的身份和「來到」的含義,Gemini Pro 無法提供明確的答案。
這說明了,模型需要依賴特定的上下文訊息,來做出準確的時間判斷。
在現實世界訊息的傳播中,模糊或不完整的訊息,也會造成這種限制。
社交(Social IQa)
在使用Social IQa 資料集評估GeminiPro 在社會常識推理方面的表現時,出現了一個有趣的場景: 人們一直欺負在Sasha,Sasha 報復了回去,接下來人們會做什麼?
A.照Sasha 說的去做B.報仇C.逃離Sasha
正確答案是C,但Gemini Pro 的選擇卻顯得很有洞察力。
它選擇了B,理由是Sasha 的行動很可能點燃了人們復仇的慾望。
這項回應表明,Gemini Pro 對於社會動態和情感動機有了細緻的理解。
Visual(VCR)
在VCR 資料集中,研究者分析了Gemini Pro Vision 對涉及人身安全和潛在危險場景的反應。
如果此時4 號推了3 號,會發生什麼事?
Gemini Pro Vision 答:3 號會掉下懸崖,危及生命。
這個結果表明,Gemini Pro Vision 已經能夠做出視覺常識推理,分析視覺場景並預測這些場景中動作的潛在後果。
這顯示模型已經掌握了空間關係和物理後果,具備了類似人類認知的複雜視覺資訊能力。
作者介紹
Yuqing Wang 目前是史丹佛大學的博士後研究員。
此前,她在明尼蘇達大學獲得學士學位,並在加州大學聖芭芭拉分校獲得博士學位。
Yun Zhao 目前是Meta 的研究員,研究方向是機器學習(包括深度學習與強化學習)的應用、人工智慧與資料探勘。
此前,他在清華大學獲得碩士學位,並且同樣在加州大學聖芭芭拉分校獲得博士學位。