AI社群透過讓球在旋轉形狀中反彈來比拼模型們的能力
非正式的、奇怪的人工智慧基準不斷增加。過去幾天,X 上的一些人工智慧社群開始沉迷於不同人工智慧模型,尤其是所謂的推理模型如何處理類似提示的測試:”編寫一個Python 腳本,讓黃色小球在一個圖形中彈跳,同時讓形狀緩慢旋轉,並確保小球保持在形狀內”。
在”旋轉在圖形中的球”基準測試中,有些模型比其他模型做得更好。據X 上的一位用戶稱,中國人工智慧實驗室DeepSeek 的免費提供的R1擊敗了OpenAI 的o1 Pro,後者作為OpenAI 的ChatGPT Pro計劃的一部分,每月收費200 美元。
根據另一X推文,Anthropic 的Claude 3.5 Sonnet 和Google 的Gemini 1.5 Pro模型錯誤地判斷了物理圖形,導致球脫離了圖形。而Other users報告稱,Google 的Gemini 2.0 Flash Thinking Experimental甚至OpenAI 的舊版GPT-4o都一次性通過了評估。
模擬彈跳球是一項經典程式設計挑戰。 精確的模擬包含碰撞偵測演算法,該演算法試圖識別兩個物體(例如一個球和一個形狀的側面)何時發生碰撞。 編寫不當的演算法會影響模擬效能,或導致明顯的物理錯誤。
X 用戶n8programs是人工智慧新創公司Nous Research 的常駐研究員,他說,他花了大約兩個小時從頭開始為旋轉七邊形中的彈跳球編程。 n8programs 在一篇文章中解釋說:”我們必須追蹤多個座標系,了解每個座標系中的碰撞是如何發生的,並從一開始就設計出可靠的程式碼。”
不過,雖然彈跳球和旋轉形狀是對程式設計技巧的合理測試,但它們並不是一個非常實證的人工智慧基準。 即使是提示的細微變化,也會產生不同的結果。 這就是為什麼X 上的一些用戶表示使用o1時運氣更佳,而另一些用戶則表示使用R1時效果不佳。
類似這樣的病毒測試則指出了為人工智慧模型創建有用的測量系統這一棘手的問題。 除了與大多數人無關的深奧基準之外,通常很難說清一個模型與另一個模型的區別。
許多人正在努力建立更好的測試,例如ARC-AGI 基準和Humanity’s Last Exam。 我們將拭目以待,在此期間,請觀看球在旋轉形狀中彈跳的GIF。