Gemini Pro vs GPT-4 V:Google通過考驗了嗎?
儘管Google發布了其競爭對手Gemini Pro,但有人聲稱與OpenAI 的GPT-4 相比,它沒有達到預期。持續的爭論圍繞著Gemini 還是GPT-4 V 是否更全面更勝一籌。雖然許多觀點傾向GPT-4 V,但必須承認Google 的Gemini Pro 也不甘落後。
最近,來自香港和上海的研究人員發表了一篇題為《Gemini Pro vs GPT-4 V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases》的研究論文,比較了兩個模型的視覺能力,結果相當有趣。
Gemini Pro在特定推理任務中表現出卓越的表現,特別是邏輯推理和事實準確性。這使得Gemini 成為需要強大理解和分析能力的任務的合適選擇。因此,認識到這兩種模型的優勢非常重要。在討論中支持GPT-4 V 可能並不完全合理。
GPT-4 V VS Gemini Pro
研究表明,GPT-4 V 的反應表現出精確性和簡潔性,顯示出在情境理解方面的顯著優勢。另一方面,Gemini Pro 擅長提供詳細而廣泛的答案,再加上相關的圖像和鏈接,凸顯了其生成豐富內容的能力。在工業應用場景中,兩種模型都表現出了能力,儘管存在細微差別。
Gemini 一次輸入單一影像的限制取決於隨附的文字指令,這與GPT-4 V(ision) 連續攝取多個影像的能力形成鮮明對比,從而增強了其記憶能力。雖然這兩種模型在基本影像辨識任務中表現出相當的熟練程度,但GPT-4 Vision 在現實世界的物件定位方面表現出色,特別是在抽象影像(七巧板)定位方面。
從圖像中提取文字是這兩個模型的強項,但Gemini 在讀取表格資訊方面超越了GPT-4 Vision。兩個模型都在高級推理任務中展示了常識性理解,Gemini在某些智力測驗中稍微落後。值得注意的是,這兩種模型都在情感理解和表達方面表現出色。
GPT-4 和Gemini 之間的選擇取決於特定的任務要求。GPT -4 適合多模式和提示任務,Gemini 適合與程式碼相關的工作或優先考慮計算效率的場景。
Gemini通過考驗了嗎?
當Google在發佈時透過示範影片展示Gemini Ultra 的多模式功能時,每個人都驚嘆不已。但後來發現,影片是擺拍的。
Google上傳的六分鐘影片向我們展示了Gemini進行流暢對話、回答查詢以及參與諸如與人玩石頭剪刀布等遊戲等活動的各種例子。
在演示中,一切似乎都是即時發生的,Gemini 可以快速回應。相反,Youtube 上對該影片的描述是:「出於本演示的目的,為了簡潔起見,延遲已經減少,Gemini 輸出也已縮短。」但Gemini Pro 的性能卻並非如此。
在強調GPT-4 V 在基準場景中令人印象深刻的功能時,認識到Gemini Pro 與之共享的平行優勢至關重要。Gemini 因其能夠提供簡潔而直接的回應而脫穎而出,在需要事實準確性和及時資訊檢索的任務中具有顯著優勢。
這種共性強調了兩種模型在應對特定挑戰方面的微妙有效性,並強化了這樣一種觀念,即一種模型的進步往往可以與另一種模型的能力產生共鳴。其強大的推理能力,特別是在專家任務中,以及提高的識別準確性,特別是在識別名人方面,展示了其在專業領域的實力。
Gemini 在程式碼相關任務中脫穎而出,在程式碼生成、理解、翻譯和錯誤檢測方面表現出熟練程度,使其成為開發人員的首選。它還擁有通用推理能力,並因其可擴展性和效率而備受推崇。
然而,這兩種模型都有共同的弱點,包括空間意識的限制、OCR 不可靠、推理不一致以及對提示的敏感度。由於缺乏具體報告的詳細信息,阻礙了更深入的分析,強調了定量基準的必要性以及及時了解正在積極發展的兩個模型的持續發展的必要性。雖然Gemini Ultra 將於明年發布,但如果您優先考慮實用性、效率和更廣泛的可訪問性,Pro 可能是更好的選擇。