分不清9.11和9.9大小暴露大模型邏輯推理短板
邏輯推理被認為是目前大模型最難攻克的關卡。一道小學數學題,成功難倒了超過一半的大模型。近日,據報道,經測試,在「9.11和9.9兩個數字哪個更大」這個基礎的數學題上,國內外12個大模型之中只有4個答對了,剩下8個全都回答錯誤。在答錯者中,也包括了知名的ChatGPT-4o。
數學相關的邏輯推理能力一直是當下大模型的短板。但一道小學生級的數學題,卻成了各家標榜成為「生產力升級」的大模型面前的絆腳石,這在公眾輿論之中引發了不小爭議。究其原因,是近期大眾對於「大模型無所不能」的傳統認知與大模型當下仍處在測試探索期的現實之間產生了衝突。
實際上種種跡象顯示,大模型目前在純數學問題上的真實能力應該就處在小學程度的區間。 2023年底,OpenAI(美國人工智慧研究公司)內部曾被曝光有一個代碼為Q的“絕密大項目”,該項目正是致力於解決大模型在數學運算能力上的問題。
今年高考期間,有媒體同樣用高考數學題“考驗”了大模型,參與測試的7個大模型在高考數學上全部“不及格”,最高分也只有75分。
這並不能理解為大模型有了高考數學75分的程度。大模型是一個「不怎麼懂數學運算、但懂得大量搜尋文字資料分析」的主體,而75分是其可以透過資料蒐集比對分析所能取得的最好成績。
從這個角度來看,外界認為大模型是「文科生」似乎不算是偏見。目前使用者可以感知到的大模型,是基於海量文本的相關性進行訓練分析,從而達到文本生成的人類平均水準。
但除了文本的分析與生成之外,人類對資訊的蒐集分析處理中最重要的是推理能力,包括了邏輯推理、認知推理等。
數學運算是典型的邏輯推理能力。即根據前提條件給出符合邏輯或潛在邏輯關係的結論,而數學運算是用精確的語言和符號進行純邏輯的推演,因此,如此理解的話,更能直觀地感受到大模型的邏輯推理能力。
邏輯推理被認為是目前大模型最難攻克的關卡。邏輯推理對於大模型的未來發展為何重要?從應用場景上看,推理能力意味著可靠性和適配性的問題。
目前,大模型所展現的應用場景主要侷限在資料分析、內容生成等領域,而涉及數位分析、邏輯推演等產業領域,大模型的想像空間依然有限。因此,國內外的大模型企業已經開始有意識地探索「如何訓練大模型在特定條件下的推理能力」。
從消費者的角度來看,如果希望大模型能夠在數理分析、邏輯推理等領域成為有效助手,或許還有賴大模型在推理訓練上的下一個階段突破。但或許更值得思考的問題是:當大模型掌握了推理能力,那麼,距離進一步攻破人類的思考活動或許就真的不遠了。有些人對此有所擔憂,人類真的做好準備了嗎?
□王曉凱(媒體人)