研究發現最好的視覺學習模型在最基本的辨識測驗中也會失敗
人工智慧系統的最新進展大大提高了它們識別和分析複雜圖像的能力。然而,一篇新論文揭示出,許多最先進的視覺學習模型在人類認為容易的簡單視覺任務上都很吃力,例如計算網格中的行數或兩條線相交的次數。
奧本大學和阿爾伯塔大學的研究人員最近發表了一篇題為”視覺語言模型是盲目的”的論文。研究使用了八種直接的視敏度測試來突出視覺學習模型(VLM)的缺陷。這些任務包括計算相交線、辨識圈選的字母、計算嵌套的形狀等。這些測驗都有客觀明確的答案,除了基本的二維圖形外,只需要最低限度的知識。
為了避免模型透過記憶來完成這些任務,研究人員使用自訂程式碼而不是預先存在的圖像來產生測試。他們評估了四種VLM 模型,包括GPT-4o、Gemini-1.5 Pro、Sonnet-3 和Sonnet-3.5。結果表明,沒有一個模型能達到完美的準確度,而且根據任務的不同,性能也有很大差異。
例如,表現最好的模型只能數出空白網格中的行和列,準確率不到60%。相反,Gemini-1.5 Pro 的性能接近人類水平,能在93% 的情況下正確識別帶圈字母。
此外,即使對任務稍作修改,也會導致效能的顯著變化。雖然所有模型都能正確辨識五個重疊的圓環,但當圓環數量增加到六個或更多(上圖),準確率就會下降到50%以下。研究人員推測,準確率下降的原因可能是偏向奧林匹克標誌的五環相扣。有些模型甚至提供了無意義的答案,例如”Subdermatoglyphic”(下圖)中圈出的字母是”9″、”n”或”©”。
這些發現凸顯了VLM 在處理低階抽象視覺任務能力上的巨大限制。這種行為讓人聯想到大型語言模型的類似能力差距,這些模型可以產生連貫的文字摘要,但卻無法解決基本的數學和拼字問題。研究人員假設,這些差距可能源自於模型無法超越其訓練資料。然而,使用其中一項任務(兩個圓圈相碰測試)中的特定圖像對模型進行微調,準確率僅從17%略微提高到37%,這表明模型過度適應了訓練集,但卻無法泛化。
研究人員提出,VLMs 的這些能力差距可能是由於將視覺編碼器整合到預先訓練的語言模型的”後期融合”方法造成的。他們認為,從一開始就將視覺和語言訓練結合起來的”早期融合”方法可以提高低階視覺任務的表現。不過,他們沒有提供支持這項建議的分析。
您可以在該團隊的網站上查看結果和其他範例。