實測發現Gemini的數據分析能力並不像Google所宣稱的那麼好
Google的旗艦生成式人工智慧模式Gemini 1.5 Pro 和1.5 Flash 的賣點之一是它們據稱可以處理和分析的資料量。在新聞發布會和演示中,Google一再聲稱這些模型可以完成以前不可能完成的任務,這要歸功於它們的”長語境”,比如總結多篇百頁文檔或搜索電影膠片中的各個場景。
但新的研究表明,這些模型實際上並不擅長這些事情。
兩個不同的研究調查了Google的Gemini模型和其他模型如何從海量資料中獲得意義–想想”戰爭與和平”長度的作品。這兩項研究都發現,Gemini 1.5 Pro 和1.5 Flash 很難正確回答有關大型資料集的問題;在一系列基於文件的測試中,這些模型只有40% 50% 的時間給出了正確答案。
“雖然像Gemini 1.5 Pro 這樣的模型在技術上可以處理較長的上下文,但我們看到很多案例表明,這些模型實際上並不能’理解’內容,”馬薩諸塞大學阿默斯特分校博士後、其中一項研究的合著者Marzena Karpinska 說。
Gemini缺少上下文窗口
模型的上下文或上下文視窗指的是模型在產生輸出(如附加文字)之前考慮的輸入資料(如文字)。一個簡單的問題–“誰贏得了2020 年美國總統大選?- 可以作為上下文,電影劇本、節目或音頻片段也是如此。隨著上下文窗口的增加,可容納文件的大小也會隨之增加。
Gemini 的最新版本可接收多達200 萬個標記作為上下文。 (標記”是原始資料的細分位,如”夢幻”一詞中的音節”fan”、”tas”和”tic”)。這相當於大約140 萬個單字、2 小時的影片或22 個小時的音訊–這是所有商用模型中最大的語境。
在今年稍早的簡報會上,Google展示了幾個預先錄製的演示,旨在說明Gemini長情境功能的潛力。其中一個示範讓Gemini 1.5 Pro 搜尋阿波羅11 號登月電視直播的記錄(約402 頁),找出包含笑話的引語,然後在電視直播中找到與鉛筆素描相似的場景。
Google DeepMind 研究副總裁Oriol Vinyals 主持了這次簡報會,他用”神奇”來形容這個模型。
他說:”[1.5 Pro]可以在每一頁、每一個單字上執行此類推理任務。”
但這可能有點誇張。在上述對這些能力進行基準測試的一項研究中,卡平斯卡與來自艾倫人工智慧研究所和普林斯頓大學的研究人員一起,要求模型評估有關英文小說的真/假語句。研究人員選擇了近期的作品,這樣模型就無法依靠預知來”作弊”,而且他們還在語句中加入了具體細節和情節點,如果不閱讀整本書,是無法理解這些細節和情節點的。
Gemini 1.5 Pro 和1.5 Flash 在閱讀了相關書籍後,必須說出這句話的真假並說明理由。
圖片來源:UMass Amherst麻薩諸塞大學阿默斯特分校
研究人員對一本長度約為26 萬字(約520 頁)的書進行了測試,發現1.5 Pro 在46.7% 的時間內正確回答了真/假語句,而Flash 僅在20% 的時間內正確回答了真/假語句。這意味著硬幣在回答有關這本書的問題時明顯優於Google最新的機器學習模型。綜合所有基準測試結果,兩個模型的答案準確率都沒有超過隨機機率。
卡平斯卡說:”我們注意到,與那些透過檢索句子層面的證據就能解決的問題相比,模型在驗證那些需要考慮書中較大部分甚至整本書內容的主張時會遇到更多困難。
兩項研究中的第二項由加州大學聖塔芭芭拉分校的研究人員共同完成,測試了Gemini 1.5 Flash(而非1.5 Pro)”推理”影片的能力,即搜尋並回答有關影片內容的問題。
合著者創建了一個圖像資料集(例如,一張生日蛋糕的照片),並配上問題讓模型回答圖像中描述的物件(例如,”這個蛋糕上有什麼卡通人物?)為了對模型進行評估,他們隨機挑選了其中一張圖片,並在其前後插入”幹擾”圖片,以創建類似幻燈片的片段。
Flash 的表現並不盡如人意。在一項讓模型從25 張圖片的”投影片”中轉錄6 位元手寫數字的測試中,Flash 的轉錄正確率約為50%。八位數的準確率下降到30%。
“在實際的圖像問題解答任務中,我們測試的所有模型似乎都特別困難,”加州大學聖塔芭芭拉分校的博士生、該研究的共同作者之一邁克爾-薩克森(Michael Saxon)表示,”少量的推理–辨識出一個數字在一個框架中並讀取它–可能是讓模型失效的原因」。
這兩項研究都沒有經過同行評審,也沒有對Gemini 1.5 Pro 和1.5 Flash 的200 萬標記上下文版本進行測試(這兩項研究都對100 萬標記上下文版本進行了測試)。 (這兩個版本都測試了100 萬標記上下文的版本)而且,Flash 在性能方面並不像Pro 那樣強大;Google 將其宣傳為低成本的替代品。
儘管如此,這兩件事還是讓人們更加確信,Google從一開始就對Gemini的承諾過高,而實際效果卻不盡如人意。研究人員測試的所有模型,包括OpenAI 的GPT-4o和Anthropic 的Claude 3.5 Sonnet,都表現不佳。但Google是唯一一家在廣告中將情境視窗放在第一位的模型提供者。
薩克森說:”根據客觀的技術細節,簡單地宣稱’我們的模型可以接受X 個字元’並沒有錯。但問題是,你能用它做什麼有用的事情?”
隨著企業(和投資者)對生成式人工智慧技術的限制感到失望,這種技術正受到越來越多的關注。
在波士頓顧問公司(Boston Consulting Group)最近進行的兩項調查中,約有一半的受訪者(皆為C-suite 高層)表示,他們並不指望人工智慧生成技術能帶來實質的生產力提升,而且他們擔心人工智慧生成工具可能會導致錯誤和資料外洩。 PitchBook 最近報告稱,連續兩個季度,生成式人工智慧最早階段的交易量出現下滑,從2023 年第三季的峰值驟降76%。
面對可以總結會議內容、虛構人物細節的聊天機器人,以及基本上等同於剽竊生成器的人工智慧搜尋平台,客戶們正在尋找有前途的差異化產品。 Google一直在追趕其人工智慧生成器競爭對手,有時甚至是笨拙地追趕,它急切地想讓Gemini的語境成為這些差異化因素之一。但現在看來,這個賭注還為時過早。
卡平斯卡說:”我們還沒有找到一種方法來真正證明對長文檔的’推理’或’理解’正在發生,而且基本上每個發布這些模型的小組都在拼湊他們自己的臨時驗證來做出這些宣稱。
Google沒有回應置評請求。
薩克森和卡平斯卡都認為,要消除生成式人工智慧的誇大宣傳,就必須制定更好的基準,同時更重視第三方的批評意見。薩克森指出,Google在其行銷資料中大量引用的”大海撈針”(need in the haystack)是一種更常見的長語境測試方法,它只能衡量模型從資料集中檢索特定資訊(如姓名和數字)的能力,而不能回答有關這些資訊的複雜問題。
“所有科學家和大多數使用這些模型的工程師基本上都認為,我們現有的基準文化已經崩潰,”薩克森說,”因此,重要的是公眾要明白,對這些包含’跨基準的通用智能’等數字的巨型報告,要慎重對待。