AI「明星」選手巔峰對決實測最新GoogleGemini與GPT-4o
近日,OpenAI以一場26分鐘的線上直播展示了GPT-4o帶來的驚人互動能力,將新一輪AI爭霸帶入了「Her 時代」。 GPT-4o的“o”代表“omni”,一詞意為“全能”,該模型能夠實現無縫的文本、視頻和音頻輸入,並產生相應模態的輸出,真正意義上實現了多模態交互。
緊接著一天,年度Google I/O開發者大會如期而至,GoogleCEO Sundar Pichai宣布了一系列圍繞其最新生成式AI模型Gemini的重大更新,全面反擊OpenAI,其中就有由升級後Gemini模型驅動的AI助理專案Project Astra、對標Sora的文生視訊模型Veo等。
本週AI戰場暫告一段落,《科創板日報》記者對AI界的「明星」選手——GoogleGemini 1.5 Pro(100萬tokens)、OpenAI最新升級的GPT-4o與此前發布的GPT-4進行了一場能力評測。
▍文字測驗:GoogleGemini 1.5 Pro正確率與速度完胜GPT-4o和GPT-4
OpenAI發布GPT-4已過去一年多,據介紹,此次推出新旗艦模型GPT-4o的推理能力有明顯的提升,速度快了,價格也下降了。
GoogleGemini系列以其標誌性的超大上下文視窗而聞名,先前已擁有Ultra、Pro和Nano三種規格,各適配不同規模與需求的應用場景。本次發表會宣布,迭代後的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens(語句單位)提升到了200萬tokens。這項改進顯著增強了模型的資料處理能力,使其在處理更複雜和龐大的資料集時更加游刃有餘。
兩家公司都對自己的大模型的升級換代展現出自信姿態,但情況仍需要實際驗證。
第一題是“事實回答題”,只有GoogleGemini 1.5 Pro模型回答正確,它能辨別出“螺絲釘並不是一種食品”這一事實。
Gemini 1.5 Pro回覆結果
GPT-4和GPT-4o雖然對「麻辣螺絲釘怎麼做」的回答非常詳細和全面,涵蓋了所需材料、製作步驟以及小貼士,但是卻忽略了「螺絲釘並不是一種可食用品」這一前置事實。
GPT-4、GPT-4o回覆結果
第二題是“邏輯計算題”,GPT-4和GPT-4o均回答錯誤,Google模型給出正確答案,並且顯示了具體作答時間,不到10秒的時間里便給出了答案和解析,表現可謂「又快又好」。
Gemini 1.5 Pro回覆結果
不同模型在處理邏輯問題時所採取的思考策略有所差異。與Gemini 1.5 Pro在解答時先給答案再詳細解釋背後規律的方式不同,GPT-4和GPT-4o更傾向於先深入拆解問題,而非直接呈現答案。然而,這種對問題的細緻分析和拆解過程也導致了後兩者在回答時所需的時間相對較長。
GPT-4、GPT-4o回覆結果
第三題是“生物題”,GPT-4回答錯誤,GPT-4o和GoogleGemini 1.5 Pro回答正確,用時分別為14.83秒和11.2秒,Gemini 1.5 Pro略勝一籌。
Gemini 1.5 Pro回覆結果
第四題是“倫理道德題”,三個大模型的答案都正確,並且都能識別出是經典的倫理困境“電車難題”。GPT-4和Gemini 1.5 Pro強調了倫理困境的複雜性,並沒有給出直接的選擇,GPT-4o則根據「最大限度減少傷亡」的原則進行分析並給出選擇。
三大模型回覆結果
《科創板日報》記者總結文本測試結果發現,Google100萬級參數的Gemini 1.5 Pro模型憑藉四次全部正確的表現,實力槓桿,GPT-4o答對了兩次,而GPT-4模型的表現則不盡人意,僅答對了一次。
由於目前200萬級參數的Gemini 1.5 Pro模型尚未開放,《科創板日報》記者申請了內測,等待通過後再做進一步測試分享。
▍多模態測驗:GPT-4o在細節與分析能力上更勝一籌
GPT-4o是OpenAI對其廣受歡迎的大型多模態模型GPT-4的第三次重大迭代,它通過視覺功能擴展了GPT-4的能力,新發布的模型能夠以一種集成且無縫的方式與使用者進行對話、視覺識別和互動。 Gemini 1.5 Pro也擁有多模態功能,適合處理摘要、聊天、圖片分析和視訊字幕、以及從長文字和表格中提取資料等。
記者用「公園照片」詢問三個大模型
在測試中,記者用一張「公園照片」來詢問三個大模型。根據圖片測試回饋,三個大模型都準確地描述了公園照片的內容,但重點略有不同。 GPT-4o勝在資訊完整性,詳細列舉了船隻類型、湖面狀態等各種細節,但略顯冗長。Gemini 1.5 Pro語言簡潔流暢,以「悠閒地泛舟」、「景色宜人」等字眼描繪出畫面美感,但細節不如GPT-4o豐富。 GPT-4描述簡潔,但細節不夠豐富。
簡言之,若重視訊息的全面性,GPT-4o最強;若較注重語言表達,則Gemini 1.5 Pro表現略佳。
由於目前GPT-4尚未具備音訊和視訊內容的解析能力,所以不做相關評測。 OpenAI共同創辦人Sam Altman表示,新款語音模型GPT-4o尚未出貨,已經出貨只是文字版GPT-4o。等到語音版一出貨,記者將第一時間帶來評測。
根據視訊測試回饋,GPT-4o在解析視訊內容時表現出了強大的多模態處理能力。它能夠提取和分析視訊幀,並透過圖形介面直觀地展示給用戶。在分析過程中,模型準確地識別出了影片中的四足機器人,並對其外觀、所處的環境以及所進行的活動進行了詳細的描述。
GPT-4o視頻測試回复
相較之下,Gemini 1.5 Pro的回覆則顯得簡略又單調,在記者第二次追問下,才充實了更多細節。
整體來看,如果目標是獲得最全面、深入的多模態內容理解,GPT-4o是目前的最佳選擇,而Gemini 1.5 Pro則更適合那些重視表述品質與效率的多模態應用場景。不過,GPT-4o和Gemini 1.5 Pro都沒有提及對影片裡的聲音的分析,這是兩個多模態大模型解析中的一個共同缺失。
▍前華為「天才少年」預測國內第一個端到端多模態大模型年底將到來
AI比賽行至白熱化階段已經告別單純的技術競爭,轉向應用和使用者體驗的競爭。
在搜尋引擎和辦公室領域,Google也將進一步將AI引入其中。記者發現,能夠總結Google搜尋引擎結果的「AI概覽」(AI Overviews)功能已能夠使用。百度創辦人、董事長兼執行長李彥宏昨晚在財報電話會上表示,目前百度搜尋上有11%的搜尋結果由AI產生。他指出,百度搜尋的AI重建工作仍處於早期階段,整體來看,搜尋最有可能成為AI時代的殺手級應用程式。
OpenAI與Google都不約而同地盯上了能自然互動的智慧助理,這種智慧助理是一個端到端的統一多模態大模型,將推動AI應用的革命性變化。
前華為「天才少年」、Logenic Al 聯合創辦人李博傑認為,國內第一個多模端對端多模態,很有可能今年底就能差不多能出來了。
針對AI Agent近期的發展速度放緩的問題,李博傑表示,「雖然AI智能助理的發展前景廣闊,但成本和用戶的付費意願是目前限制其快速發展的主要因素。GPT-4o它比GPT-4快4倍,並將成本降低了一倍,但是對於普通消費者來說可能仍然較貴。
李博傑稱,從長期來看,實用性強的智慧助理因其解決現實問題的能力而具有更高的價值。而短期內,情感陪伴和娛樂功能的智慧助理更容易商業化,因為它們對可靠性的要求較低,開發和部署相對容易。