人類最後一次考試AI正確率<10% DeepSeek竟是王者
AI模型可能沒有想像中強大。在最新的AI基準測試「人類最後一次考試」中,所有頂尖LLM通過率不超過10%,而且模型都表現得過度自信。捍衛「人類智慧」最後一戰!剛剛,Scale AI和Center for AI Safety(CAIS)公佈了「人類最後一場考試」結果!
新基準全名為“人類最後一次考試”(Humanity’s Last Exam),簡稱“HLM”,包含3000個問題,由數百位領域專家開發,用於追尋人類知識推理的邊界。
目前,最好的模型,準確率也小於10%,而且自信「過頭」。
具體結果如下:
Scale AI和CAIS同時公佈了相關論文、資料集和測試程式碼。
專案連結:https://lastexam.ai/
網友對這項工作也不吝讚賞:
“人類最後一次考試”
為了評估AI的能力的進展,已發布了多個資料集,針對語言模型,根據「Paper with code」網站統計,就有165個相關資料集。
然而,目前的基準測試難度並未跟上進步的步伐:LLM在一些熱門基準測試(如MMLU)上已能達到90%以上的準確率,這限制了對最新LLM能力的有效評估。
甚至有基準被爆出,可能有給某些模型「漏題」的問題。
為此,Scale AI和CAIS推出了名為「人類最後的考試」(Humanity’s Last Exam)的多模態基準測試,旨在成為這類封閉式學術基準測試的最終版本,涵蓋廣泛的學科領域。
測評一覽
「人類最後一次考試」(HLE)包含兩種問題格式:
精確匹配題(Exact-Match Questions):模型需要輸出一個完全匹配的字串作為答案。
選擇題(Multiple-Choice Questions):模型需要從五個或更多選項中選擇一個正確答案。
此外,HLE是一個多模態基準測試,其中10%的問題要求理解文字和圖像參考,80%的問題為精確匹配題,其餘為選擇題。
此資料集包含3000道難度較高的問題,涉及100多個學科。
各學科分類,大致如下:
圖3:HLE高階類別分組。
大部分問題已公開發布,同時保留了一部分私有測試集,用於評估模型是否有擬合現象。
在計畫網站上,公佈了不同領域/科目的8個樣題,包含化學、物理、數學、電腦科學、語言學等。
比如,其中的一道常識性問題:
希臘神話中,伊阿宋的曾祖父是誰?
具體樣題,參考下列圖片。
建立流程
為了吸引高品質的問題提交,HLE設立了總額50萬美元的獎金池,並提供以下獎勵:
頂級問題獎勵:每道排名前50的問題將獲得5,000美元獎金。
優質問題獎勵:接下來的500道問題,每道將獲得500美元獎金。
此外,任何被HLE接受的問題提交者,都有機會成為相關論文的共同作者,激勵了許多高水準的專家參與,特別是那些擁有高級學位或在相關技術領域擁有豐富經驗的專業人士。
整體而言,總收集了超過70,000個試驗性問題,其中13,000個問題被選出來供人類專家評審,進而最終確定在公開考試中發布的3,000個問題。
近1000名專家成功提交了問題。
他們來自50個國家的500多個機構,其中大多數貢獻者是活躍的研究員或教授。
問題涵蓋了多種格式,包括純文字和多模態難題,整合了圖像和圖表。
為了確保問題的高品質和難度,HLE的資料集透過以下流程建立:
問題篩選:首先接收問題提交,這些問題專門前沿的LLM設計,LLM通常難以正確回答。
迭代優化:在專家同儕審查的幫助下,重複修改優化提交的問題,提升問題的複雜性和準確性。
手動審核:由組織者或由組織者培訓的專家,手動審核每道問題,確保問題符合測試要求。
保留私有資料集:除了公開資料集,還保留了一部分私有測試集,用於評估模型在公開基準測試上的過度擬合和可能的作弊行為。
HLE的資料集建立流程
具體成果
研究者共評估了7個模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。
表1顯示,所有前沿模型在HLE中的準確率都很低,所有模型的校準表現都很差,反映在較高的RMS校準誤差分數中。
表1:不同模型在HLE上的準確率與RMS校準誤差。
具有推理能力的模型,通常需要显著更多的推理时间和计算资源。
為了更清晰地了解這一點,對各模型產生的補全(completion)token數量進行了分析。
如圖5所示,推理模型Gemini 2.0 Flash Thinking、o1和DeepSeek-R1為了提升效能,需要產生的token數量遠遠超過非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(見圖5)。
圖5:不同模型的平均補全(completion)token數量
展望未來
在「人類上次考試」(Humanity’s Last Exam,簡稱HLE)中,目前的LLM表現仍然非常差。
但從發展歷史來看,基準測試的飽和速度非常快——模型往往在短短的時間內,從接近0的準確率躍升至接近100%的表現。
鑑於AI發展的快速步伐,在2025年底前,模型有可能在HLE上超過50%的準確率。
AI實驗室有新榜單可刷了,躍躍欲試
如果模型在HLE中獲得高分,將表明模型在封閉式、可驗證的問題以及前沿科學知識方面的專家級表現,但這並不意味著模型具備自主研究能力或「通用人工智慧」(AGI) 。
HLE測驗的是結構化的學術問題,而非開放式研究或創意問題解決能力,因此它更著重於技術知識和推理能力的衡量。
作者在論文表示:“雖然HLE是給予模型的最後一場學術考試,但它遠非AI評估的最後一個基準。”
參考資料:
https://scale.com/blog/ humanitys-last-exam-results