智譜首個推理模型人人免費用考研數學得126分、還能編寫小遊戲
2024 年的最後一天,智譜GLM 模型家族迎來了一位新成員—— GLM-Zero 的初代版本GLM-Zero-Preview,主打深度思考與推理。從年初到年末,在接連推出新一代基座大模型、多模態模型、視訊生成模型以及語音模型之後,智譜補上了推理模型這塊拼圖。
据介绍,GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。
以數學能力為例,智譜讓GLM-Zero-Preview 做了一整套2025 年考研數學一,最後得分為126,達到了優秀研究生程度。從下圖可以看到,模型給了詳細的解題步驟。
再看下程式碼能力,GLM-Zero-Preview 熟練使用多種程式語言,可以幫助開發者快速編寫程式碼,如下使用HTML 語言獨立編寫了一個第一人稱射擊遊戲。另外它還可以調試程式碼,快速識別錯誤並給予修復建議。
目前,GLM-Zero-Preview 已經上線使用。使用者可以在智譜清言網頁端選擇「Zero 推理模型」智能體,上傳文字或圖片就能免費體驗。另外,GLM-Zero-Preview 的API 也在智譜開放平台同步上線以供開發者呼叫。
智譜清言:http://chatglm.cn/
智譜開放平台:https://bigmodel.cn/
2000萬token免費體驗資源包領取網址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K
一手實測
智譜深度推理大摸底
先來看官方給的指標。作為智譜首個基於擴展強化學習技術訓練的推理模型,GLM-Zero-Preview 在多個基準上與OpenAI o1-preview 互有勝負,其中在數學基準測試AIME 2024、MATH500 以及程式碼產生基準測試LiveCodeBench中實現小幅超越。
在技術實現上,由於強化學習訓練量的增加,GLM-Zero-Preview 的深度推理能力得以穩定提升。同時隨著模型在推理階段可以思考的token 數變多以及計算量增加,GLM-Zero-Preview 的輸出結果品質也穩定提升。
得益於以上兩點,GLM-Zero-Preview 展現了類人的思考決策過程,初步具備了「推理過程中自主決策、問題拆解、嘗試多種方式解決問題」等能力。
是騾子是馬,溜後才知道。 GLM-Zero-Preview 在真實世界任務中的表現如何?機器之心進行了一波全方位的測試。
我們搜羅了各種類型的推理問題,看看GLM-Zero-Preview 能不能hold 住這些容易繞暈人的中文邏輯陷阱題,以及需要數學、物理等專業學科知識與思辨能力的題目。
比大小不會翻車、有乾擾項也無妨
大模型以前经常翻车的小数点后比大小问题,GLM-Zero-Preview 轻松搞定。我们看到了该模型的深度思考链路,它的显著特点是在理解问题及解题关键的基础上,从不同的角度分析、验证并给出答案。整个过程看下来,GLM-Zero-Preview 有点“PUA”自己,生怕会出错,多次检查并肯定自己的答案无误。
對於一些設定了乾擾項的推理問題,GLM-Zero-Preview 也絲毫不會受到影響,很快就理清思路,排除乾擾項。
不落入語言陷阱、拿捏複雜推理
中文語境下有很多陷阱,例如歧義性、語境依賴、隱含資訊、文化背景等,應對起來要求推理大模型「吃透」語言特點,並且能夠結合上下文資訊、語意知識和常識推理,明辨其中的彎彎繞。
面對這類中文陷阱題目,GLM-Zero-Preview 給出的深度思考過程顯示,它從不同的視角考慮和深度推理,排除一切的不可能之後,確認最合理的解釋和答案。
另外,面對複雜的中文邏輯推理問題,尤其涉及多個角色人物時,GLM-Zero-Preview 不會被搞混。透過深度思考進行情況羅列與假設分析,並輔以縝密的條件驗證,整個過程像抽繭剝絲的判案一樣。
GLM-Zero-Preview 給了邏輯清晰的解題步驟。
常識推理無壓力、時間感知能力強
如今的大模型在「餵」給足夠多的高品質數據之後,像人一樣掌握了豐富的常識,做起此類推理題來沒有壓力。
在時間推理中,大模型需要理解時間順序、事件發生的時序關係,要有清楚的預測與推論能力。例如下面的時間推理場景,想必很多人都會被繞暈,而GLM-Zero-Preview 做到了對多個角色參與的複雜時間關係的準確判斷。
數學小能手上線
大模型的數學能力可以為人們在許多數學任務中提供強大支持,例如代數、微積分、機率統計。 GLM-Zero-Preview 具備了更強的歸納與演繹能力,例如下面這道序列解題,它在深度思考過程中觀察規律、找出規律、驗證規律。
面對經典的青蛙爬井問題,GLM-Zero-Preview 不僅給了正確的解題想法和答案,也總結了一波經驗心得。
再考它一道出自2024 高考數學北京卷的條件判斷題,顯然難不倒GLM-Zero-Preview,它通過等價代換的方式得出了正確答案。
hold 弱智吧
在面對一些弱智吧問題時,GLM-Zero-Preview 一板一眼地進行理論層面以及實際可行性的分析,並展開論證,令人忍俊不禁。
視覺推理多面手
目前,GLM-Zero-Preview 支援上傳png、jpg、jpeg、webp 等多種格式的圖片,並能夠應對許多類型的推理任務,例如解帶有電路圖的高考物理題(2024 北京卷):
以下為完整的解題步驟:
也能理解梗圖:
推理模型大PK
誰更勝一籌
接下來,機器之心讓GLM-Zero-Preview 與o1、DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 等競賽模型來了一場對決。
先考它們一道數學組合題,看看哪個模型邏輯性更強。
首先是GLM-Zero-Preview:
然後是o1:
接著是DeepSeek-R1-Lite 預覽版:
最後是QwQ-32B-Preview:
比較下來,我們可以發現,o1 的推理過程最簡單,缺乏驗證的環節。其他三個模型在給出解題思路之後都對步驟和計算進行了確認,其中DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 的驗證相對簡單一些,而GLM-Zero-Preview 不僅解題過程更清晰完整,也展現了自我反思、自我懷疑、自我肯定等擬人化的思考模式。
再來第二輪較量,這次是一道中文陷阱推理題,看看哪個模型頭腦比較清楚。
首先是o1 與QwQ-32B-Preview,思考過程很短:
GLM-Zero-Preview、DeepSeek-R1-Lite 預覽版的解釋更透徹,充分考慮了條件限制與現實世界的可能性。不過,DeepSeek-R1-Lite 預覽版的一些解釋又略顯重複,不如GLM-Zero-Preview 明了。
思考過程與思考鏈路的優勢,足以讓GLM-Zero-Preview 不輸其他一眾推理大模型。
結語
在對GLM-Zero-Preview 體驗一番後,我們的最大感受是:它的深度思考過程讓邏輯推理更加完整、連貫,準確度和說服力更強。從“審題、分析、多方式證明”到“自我懷疑、驗證、再驗證”到“最後確認”,環環相扣。
當然,智譜表示,目前GLM-Zero-Preview 與o3 還有不少的差距,未來將透過強化學習技術的持續最佳化迭代,讓它成為更聰明的推理者。正式版GLM-Zero 很快就會推出,到時候深度思考能力會從數理邏輯擴展到更通用的技術,確保更專精的同時全能性也更強。
回看這一整年,智譜動作不斷,GLM 家族更加壯大,包括基座模型、多模態模型、視頻生成模型、語音模型、推理模型以及智能體方面火出圈的AutoGLM、GLM-PC,如今這家大模型獨角獸的產品矩陣在完整度層面上以業界領先。
持續出新的背後是智譜對AGI 終極目標的追求。智譜形成了一套從L1 到L5 階段的AGI 路線圖,在AI 分級上註入自己的能力演化思考。在一步步邁向AGI 的過程中,從低到高在各個AI 層級做能力填充,夯實語言、多模態、邏輯推理、工具使用等基礎能力。GLM-Zero-Preview 代表智譜邁出了L4 階段的關鍵一步,大模型開始內省,並具備自我學習、自我反思、自我改進能力。
現在,市面上的推理大模型已經有了一些,甚至OpenAI 發布了更強的o3 系列模型。智譜在年末最後一天這個時間節點推出了自己的GLM-Zero,可見對於所有以AGI 為目標的玩家來說,2025 年模型推理能力無疑是被寄予厚望的一年。
來源:機器之心