即使是最好的AI也無法超越這項新基準得分甚至不到10%
非營利組織人工智慧安全中心(CAIS)和提供資料標註和人工智慧開發服務的Scale AI 公司發布了一項具有挑戰性的新基準,用於前沿人工智慧系統。
該基準名為”人類最後的考試”(Humanity’s Last Exam),包含數千個眾包問題,涉及數學、人文科學和自然科學等學科。
在一項初步研究中,甚至沒有一個公開的旗艦人工智慧系統能在”人類最後的考試”中獲得超過10%的分數。
這項新基準被稱為”人類最後的考試”,它評估了人工智慧系統是否已經在數學、人文科學和自然科學等廣泛領域實現了世界級的專家級推理和知識能力。 整個秋季,CAIS 和Scale AI 從專家那裡收集了大量問題,匯集最困難、最廣泛的問題,以難倒人工智慧模型。 開發該考試是為了應對”基準飽和”的挑戰:模型經常在現有測試中取得接近滿分的成績,但可能無法回答這些測試以外的問題。 基準飽和降低了基準作為未來模型進展精確測量的效用。
CAIS聯合創始人兼執行董事 Dan Hendrycks 說:”我們希望找到能夠測試模型在人類知識和推理前沿能力的問題。我們無法預測模型的發展速度。當我在 2021 年發布MATH 基準–一個具有挑戰性的競賽數學資料集時,最好的模型得分還不到10%;很少有人預測,僅僅三年之後,得分就會超過90%。 ‘表明,模型仍然無法回答一些專家封閉式問題。
CAIS 和Scale AI 表示,他們計劃向研究界開放該基準,以便研究人員能夠”深入挖掘變化”並評估新的人工智慧模型。