HuggingFace搭建新系統測試模型能力通義千問排名第一部分模型被發現作弊
知名模型託管平台HuggingFace 日前使用300 張NVIDIA H100 AI 加速卡構建了一個新系統用來測試開源和開放的人工智能模型,此次測試使用MMLU-Pro 等AI 模型測試集,較此前的測試集難度有所提升。
該平台稱以前的數據測試集對於現在新推出的模型來說實在是太簡單了,就像是拿初中試卷給高中生考試一樣,因此無法真正有效的評估模型能力。
而且出於行銷和宣傳考慮,部分模型實際上存在作弊行為,即使用經過優化的提示詞或評估設定來為模型提供最佳機會,這樣可以取得更高的分數。
這種情況就像部分Android 廠商在進行跑分測試時會凍結其他應用程式釋放記憶體和降低CPU 使用率,甚至會透過外部硬體進行降溫來獲得更過的基準測試分數。
基於這種原因HuggingFace 先前建立了Open LLM Leaderboard,透過設定完全相同的問題、相同的排序等來評估模型,收集在真實世界中使用者也可以重現和可比較的結果。
現在為了盡可能獲得真實有效的評估結果,HuggingFace 推出了Open LLM Leaderboard v2 版,使用300 張英偉達的H100 加速卡和資料集對模型進行了重新評估。
在最新發布的測試中,阿里雲推出的通義千問系列模型超過Meta Llama 系列模型成為綜合能力最強的模型,獲得第一的具體模型是通義千問Qwen-72B 版。
此次測試有幾個特點:
- 測試顯示模型參數規模並不是越大越好,也就是有些超大規模參數的模型能力也不是特別好
- 新的評測有效解決了先前評測難度太低的問題,可以更好的反映目前模型的真實能力
- 有跡象顯示AI 公司開始專注於主要測試,而忽略了其他方面的表現,也就是只專注於跑分
這應該是目前AI 行業裡首次有明確提到測試作弊的說法,也就是一些開發商現在可能會側重於對基準測試進行優化以取得更好的分數,這種情況顯然是不好的,但由於AI 公司現在實在是太多,這些公司為了表現自己用於宣傳或融資等目的,只能盡可能優化分數來吸引人注意。
除了常規的作弊方法外(就是上面提到的使用優化後的提示詞和測試設置),這種針對基準測試進行優化的做法難以發現,未來行業可能要花費更多時間構建更獨特的測試集來評估模型。