大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑
一群大模型玩你畫我猜,人類一旁圍觀超起勁兒。就像下面這張圖展示的,由Grok畫長頸鹿,一堆大模型根據生成內容猜答案。參賽者包括GPT-4o、Claude、Llama、Gemini、Grok等。
其實這是最近爆紅的一種新的測試基準(doge)。
遊戲結果某種程度上能反映出大模型能力,例如這組測試總共進行了6局遊戲,表現最好的是Claude:它贏了3次!
GPT-4o表現有點抽象。就它畫的這龍捲風,人類也看不懂。
不只如此,在許多輪遊戲中,其他模型都在認認真真地答題,而它的第一個回答經常是Circle? ?有點子抽象。
所以有人就說,這遊戲可以當測試基準來用。
還有人表示,AI照這個速度發展,人類就只能當圍觀的瓦力了。
來看看更多有趣的例子
在比較簡單的題目上,所有模型都在一兩個回合中就猜對了答案,例如下面的房子:
還有非常簡潔的草地、海洋:
動物主題相對複雜一些,模型們一般需要猜4-5輪,例如大像這題:
遊戲整體效果非常棒,網友們也是好評如潮:
你畫我猜項目起源
模型畫畫早已不是新鮮事,但讓大模型玩你畫我猜?這天才想法是怎麼產生的?
首先,必須提到Simon Willison的一次測試,他讓所有模型繪製自行車上有一隻鵜鶘主題的圖像,然後進行效果比較。
隨後Paul Calcraft看到測試,他產生了一個想法:這樣一個個比對太慢了,效果也不好,既然都畫同一個主題,為什麼不讓大模型玩你畫我猜的遊戲呢?
沒想到這位小哥說乾就乾,1天後就發布了「你畫我猜」的0.0.1版(這令人羨慕的執行力)。
遊戲中,他設定回答的模型每2秒猜測一次,回答更快的模型會更快回到答案。
網友評價褒貶不一
不少網友表示,之前大模型在《我的世界》裡面比賽蓋樓,令人印象深刻,而你畫我猜可能成為新的視覺benchmark!
也有人熱心地提出了優化建議,例如以答對互相題目的速度作為評分準則,或加入人類成績作為參考。
還有人提議將遊戲變成對抗式訓練,這樣大模型會進步更快。
不過,拋去趣味性,也有網友持負面觀點,表示不理解這個計畫的意義。
有網友調侃說,這個遊戲的作用就是成為未來AI考古時的文物,幫助它們了解自己的起源。
好嘛,咱們AI有自己的洞穴壁畫(doge)。
不過,遊戲化學習(Learning through play)其實是教育理論和心理學中的重要術語。
多位網友表示,小朋友也是透過玩遊戲來提升智力、學習技能的,或許可以成為訓練大模型的新方式。
雖然這次只有6輪遊戲,參與的模型也有限,但確實是一次很有趣的實踐。
作者Paul Calcraft也表示會繼續更新這個遊戲,包括分數顯示、更多的遊戲主題等等,期待更多後續!
來源:量子位