LLM排行榜更新:GoogleBard超過GPT-4 中國玩家未進前十
今天GoogleBard的排名在Imsys的LLMs 排位賽上超過了GPT-4,直接躍居第二名(但沒有超過OpenAI最新的GPT-4 Turbo模型):遇到這好事,Google首席科學家Jeff Dean 當然是第一時間前來“炫耀”,並帶貨給自家的Gemini Pro模型。
排行榜介紹
這個LLMs 排行榜(Chatbot Arena基準平台)是由UC伯克利研究人員主導的LMSYS (Large Model Systems Organization)組織發起的。透過在LLMs 間進行隨機匿名的1V1 battle 方式,並基於Elo 評級系統得出排名。
如下圖所示,你可以隨便問一個問題,左邊是模型A的回答,右邊是模型B的回答。然後你可以給這兩個模型的回答打分,一共有四個選項“A更好;B更好;A和B一樣好;A和B一樣差”,如果一輪聊天判斷不出來,你可以繼續聊天,直到選出你認為更好的,但如果在聊天過程中暴露了大模型的身份,則投票將不被計算在內。
下圖顯示了模型A在對戰模型B時獲勝幾率(不包含平手)的比例分佈圖:
下圖顯示了每個模型組合的battle次數(無平手))
下圖顯示了單一模型相對於所有其他模型的平均勝率:
OpenAI霸榜,中國玩家未進前十
下圖是該榜單目前排名的Top 10,可以看出GPT-系列模型還是佔據絕對優勢的(前四名中佔據了其三),而Anthropic旗下的Claude 系列模型則是在前十中佔據了三席。號稱是歐洲版OpenAI的Mistral公司,這次也有兩個模型進入前十名。
另外請看上圖最右側一列,排名Top 10的模型中,有9家都是閉源的私有模型,這顯示開源模型還是有一段路要走。
遺憾的是中國玩家的大語言模型沒有進入前十名。
其中排名最高的是李開復創業公司零一萬物旗下的Yi-34B-Chat模型,位居13名。
其次是阿里旗下的通義千問Qwen-14B-chat模型,排名36:
再之後是清華教授唐傑新創公司智譜AI旗下的ChatGLM系列模型:
需要說明三點:
1.有很多中國大廠研發的模型可能沒有參與到該榜單排名;
2.該榜單是面向全球公眾的,所以選擇用英文來聊天的用戶要遠比中文多,這可能對中國玩家研發的大語言模型不利;
3.該榜單僅僅統計了20w用戶的隨機提問和聊天,代表了用戶和LLMs聊天的真實評價,但由於用戶的提問和專業程度參差不齊,所以評價具有一定的主觀性。
最後我們說回Google,在裁員與科學家離職創業的內憂外患之際(詳情請移步Google危機大爆發!科學家紛紛離職創業、員工裁員不斷…),Google24年究竟能不能完成「帝國反擊戰」呢?
讓我們拭目以待吧!