首個AI高考全卷評測結果發布:最高分303 數學全員不及格
高考涵蓋各類學科及題型,同時因其開考前的“絕密性”,被視為中國最具權威的考試之一。這項針對人類設計的高難度綜合性測試,目前普遍被研究者用來考察大模型的智慧水準。在前不久高考結束後,上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考「語數外」全卷能力測試。 6月19日, OpenCompass發布了首個大模型高考全卷評測結果。
語數外三科加起來的滿分為420分,此次高考測試結果顯示,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧實驗室的書生·浦語2.0排名第三,三個大模型的得分率都超過70%。來自法國大模型新創公司的Mistral排名最後。
此次測試的模型分別來自阿里巴巴、零一萬物、智譜AI、上海人工智慧實驗室、法國Mistral的開源模型,以及來自OpenAI的閉源模型GPT-4o。實驗室表示,因無法確定閉源模型的更新時間,為公平起見,此評測未納入商用閉源模型,僅引入GPT-4o作為評測參考。這次選擇參與高考的「考生」均在高考前(2024年4月-6月)開源,避免了「刷題風險」。
從結果來看,大模型的語文、英文考試程度普遍不錯,但數學都不及格,最高分也只有75分,來自書生·浦語2.0,其次是GPT-4o,得分73分。語文最高分是通義千問,英文最高分是GPT-4o。
在數學方面大模型還有很大的進步空間。數學關乎複雜推理相關能力,這是大模型普遍面臨的難題,也是大模型在金融、工業等要求可靠的場景落地所需的關鍵能力。
上海人工智慧實驗室領導科學家林達華先前在訪談中對第一財經介紹,複雜推理關係到落地應用時大模型的可靠性,例如在金融這樣的場景下不能在數字上有差錯,會對數學上的可靠性有較高的要求。另外隨著大模型進入商用,若要分析一家公司的財報,甚至是工業領域要去分析一些技術文檔,這時數學方面的運算能力就會變成一個壁壘。
「現在很多大模型的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。」林達華先前表示。
對於此測試細節,上海人工智慧實驗室介紹,評測採用全國新課標I卷,「語數外」三科全卷測試,包括客觀題與主觀題。成績由具備高考評卷經驗的老師匿名人工判分,閱卷開始前,閱卷教師未被告知答卷均由模型生成,使閱卷教師完全以面對真實考生的標準評判回答效果。
值得注意的是,大模型犯錯的方式和人類考生有差異,從實踐上來看閱卷老師們不完全適應給大模型評分,因此存在有題目誤判的可能。實驗室表示,每個題目都邀請了至少三位老師評閱取均分,團隊對分差較大的題目還進行了再次審核,貼近高考真實閱卷標準。
實驗室表示,在評分前,老師們並未被告知答案由大模型生成,但由於有的模型會存在完全不理解題意導致亂答、重複生成、回答更像解析而非解答的問題,老師們在閱卷過程中基本上都會和團隊確認這些情況是否是正常情況,團隊會要求老師將離譜的錯誤直接視為答題錯誤,解析類型的回答以是否包含正確解題過程作為唯一準則。
在完成所有大模型答案的評卷工作後,閱卷教師被告知所評「考生」的真實身分為大模型。研究人員同時邀請各科教師對大模型表現進行了整體分析,為模型能力提升策略提供參考。
語文方面,老師認為,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物材料等手法。多數模型無法理解「本體」「喻體」「暗喻」等語文概念。語言中的一些“潛台詞”,大模型尚無法完全理解。
在數學考卷上,老師們發現,大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。
英語則整體表現良好,但部分模型因不適應題型,在七選五、完形填空等題型得分率較低。大模型英文作文普遍存在因超出字數限製而扣分的情況,而人類考生多因為字數不夠扣分。
此外,有些老師提出,由於全部回答沒有捲面,所以在作文的評判上會存在1-2分的誤差。