LLM排行榜更新：GoogleBard超過GPT-4 中國玩家未進前十

今天GoogleBard的排名在Imsys的LLMs 排位賽上超過了GPT-4,直接躍居第二名（但沒有超過OpenAI最新的GPT-4 Turbo模型）:遇到這好事，Google首席科學家Jeff Dean 當然是第一時間前來“炫耀”，並帶貨給自家的Gemini Pro模型。

排行榜介紹

這個LLMs 排行榜（Chatbot Arena基準平台）是由UC伯克利研究人員主導的LMSYS (Large Model Systems Organization)組織發起的。透過在LLMs 間進行隨機匿名的1V1 battle 方式，並基於Elo 評級系統得出排名。

如下圖所示，你可以隨便問一個問題，左邊是模型A的回答，右邊是模型B的回答。然後你可以給這兩個模型的回答打分，一共有四個選項“A更好；B更好；A和B一樣好；A和B一樣差”，如果一輪聊天判斷不出來，你可以繼續聊天，直到選出你認為更好的，但如果在聊天過程中暴露了大模型的身份，則投票將不被計算在內。

下圖顯示了模型A在對戰模型B時獲勝幾率（不包含平手）的比例分佈圖：

下圖顯示了每個模型組合的battle次數（無平手））

下圖顯示了單一模型相對於所有其他模型的平均勝率：

OpenAI霸榜，中國玩家未進前十

下圖是該榜單目前排名的Top 10，可以看出GPT-系列模型還是佔據絕對優勢的（前四名中佔據了其三），而Anthropic旗下的Claude 系列模型則是在前十中佔據了三席。號稱是歐洲版OpenAI的Mistral公司，這次也有兩個模型進入前十名。

另外請看上圖最右側一列，排名Top 10的模型中，有9家都是閉源的私有模型，這顯示開源模型還是有一段路要走。

遺憾的是中國玩家的大語言模型沒有進入前十名。

其中排名最高的是李開復創業公司零一萬物旗下的Yi-34B-Chat模型，位居13名。

其次是阿里旗下的通義千問Qwen-14B-chat模型，排名36:

再之後是清華教授唐傑新創公司智譜AI旗下的ChatGLM系列模型：

需要說明三點：

1.有很多中國大廠研發的模型可能沒有參與到該榜單排名；

2.該榜單是面向全球公眾的，所以選擇用英文來聊天的用戶要遠比中文多，這可能對中國玩家研發的大語言模型不利；

3.該榜單僅僅統計了20w用戶的隨機提問和聊天，代表了用戶和LLMs聊天的真實評價，但由於用戶的提問和專業程度參差不齊，所以評價具有一定的主觀性。

最後我們說回Google，在裁員與科學家離職創業的內憂外患之際（詳情請移步Google危機大爆發！科學家紛紛離職創業、員工裁員不斷…），Google24年究竟能不能完成「帝國反擊戰」呢？

讓我們拭目以待吧！

WONGCW 網誌