Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

智譜首個推理模型人人免費用考研數學得126分、還能編寫小遊戲

智譜首個推理模型人人免費用考研數學得126分、還能編寫小遊戲

2025-01-02 Comments 0 Comment

2024 年的最後一天,智譜GLM 模型家族迎來了一位新成員—— GLM-Zero 的初代版本GLM-Zero-Preview,主打深度思考與推理。從年初到年末,在接連推出新一代基座大模型、多模態模型、視訊生成模型以及語音模型之後,智譜補上了推理模型這塊拼圖。

据介绍,GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

以數學能力為例,智譜讓GLM-Zero-Preview 做了一整套2025 年考研數學一,最後得分為126,達到了優秀研究生程度。從下圖可以看到,模型給了詳細的解題步驟。

再看下程式碼能力,GLM-Zero-Preview 熟練使用多種程式語言,可以幫助開發者快速編寫程式碼,如下使用HTML 語言獨立編寫了一個第一人稱射擊遊戲。另外它還可以調試程式碼,快速識別錯誤並給予修復建議。

目前,GLM-Zero-Preview 已經上線使用。使用者可以在智譜清言網頁端選擇「Zero 推理模型」智能體,上傳文字或圖片就能免費體驗。另外,GLM-Zero-Preview 的API 也在智譜開放平台同步上線以供開發者呼叫。

智譜清言:http://chatglm.cn/

智譜開放平台:https://bigmodel.cn/

2000萬token免費體驗資源包領取網址:https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

一手實測

智譜深度推理大摸底

先來看官方給的指標。作為智譜首個基於擴展強化學習技術訓練的推理模型,GLM-Zero-Preview 在多個基準上與OpenAI o1-preview 互有勝負,其中在數學基準測試AIME 2024、MATH500 以及程式碼產生基準測試LiveCodeBench中實現小幅超越。

在技​​術實現上,由於強化學習訓練量的增加,GLM-Zero-Preview 的深度推理能力得以穩定提升。同時隨著模型在推理階段可以思考的token 數變多以及計算量增加,GLM-Zero-Preview 的輸出結果品質也穩定提升。

得益於以上兩點,GLM-Zero-Preview 展現了類人的思考決策過程,初步具備了「推理過程中自主決策、問題拆解、嘗試多種方式解決問題」等能力。

是騾子是馬,溜後才知道。 GLM-Zero-Preview 在真實世界任務中的表現如何?機器之心進行了一波全方位的測試。

我們搜羅了各種類型的推理問題,看看GLM-Zero-Preview 能不能hold 住這些容易繞暈人的中文邏輯陷阱題,以及需要數學、物理等專業學科知識與思辨能力的題目。

比大小不會翻車、有乾擾項也無妨

大模型以前经常翻车的小数点后比大小问题,GLM-Zero-Preview 轻松搞定。我们看到了该模型的深度思考链路,它的显著特点是在理解问题及解题关键的基础上,从不同的角度分析、验证并给出答案。整个过程看下来,GLM-Zero-Preview 有点“PUA”自己,生怕会出错,多次检查并肯定自己的答案无误。

對於一些設定了乾擾項的推理問題,GLM-Zero-Preview 也絲毫不會受到影響,很快就理清思路,排除乾擾項。

不落入語言陷阱、拿捏複雜推理

中文語境下有很多陷阱,例如歧義性、語境依賴、隱含資訊、文化背景等,應對起來要求推理大模型「吃透」語言特點,並且能夠結合上下文資訊、語意知識和常識推理,明辨其中的彎彎繞。

面對這類中文陷阱題目,GLM-Zero-Preview 給出的深度思考過程顯示,它從不同的視角考慮和深度推理,排除一切的不可能之後,確認最合理的解釋和答案。

另外,面對複雜的中文邏輯推理問題,尤其涉及多個角色人物時,GLM-Zero-Preview 不會被搞混。透過深度思考進行情況羅列與假設分析,並輔以縝密的條件驗證,整個過程像抽繭剝絲的判案一樣。

GLM-Zero-Preview 給了邏輯清晰的解題步驟。

常識推理無壓力、時間感知能力強

如今的大模型在「餵」給足夠多的高品質數據之後,像人一樣掌握了豐富的常識,做起此類推理題來沒有壓力。

在時間推理中,大模型需要理解時間順序、事件發生的時序關係,要有清楚的預測與推論能力。例如下面的時間推理場景,想必很多人都會被繞暈,而GLM-Zero-Preview 做到了對多個角色參與的複雜時間關係的準確判斷。

數學小能手上線

大模型的數學能力可以為人們在許多數學任務中提供強大支持,例如代數、微積分、機率統計。 GLM-Zero-Preview 具備了更強的歸納與演繹能力,例如下面這道序列解題,它在深度思考過程中觀察規律、找出規律、驗證規律。

面對經典的青蛙爬井問題,GLM-Zero-Preview 不僅給了正確的解題想法和答案,也總結了一波經驗心得。

再考它一道出自2024 高考數學北京卷的條件判斷題,顯然難不倒GLM-Zero-Preview,它通過等價代換的方式得出了正確答案。

hold 弱智吧

在面對一些弱智吧問題時,GLM-Zero-Preview 一板一眼地進行理論層面以及實際可行性的分析,並展開論證,令人忍俊不禁。

視覺推理多面手

目前,GLM-Zero-Preview 支援上傳png、jpg、jpeg、webp 等多種格式的圖片,並能夠應對許多類型的推理任務,例如解帶有電路圖的高考物理題(2024 北京卷):

以下為完整的解題步驟:

也能理解梗圖:

推理模型大PK

誰更勝一籌

接下來,機器之心讓GLM-Zero-Preview 與o1、DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 等競賽模型來了一場對決。

先考它們一道數學組合題,看看哪個模型邏輯性更強。

首先是GLM-Zero-Preview:

然後是o1:

接著是DeepSeek-R1-Lite 預覽版:

最後是QwQ-32B-Preview:

比較下來,我們可以發現,o1 的推理過程最簡單,缺乏驗證的環節。其他三個模型在給出解題思路之後都對步驟和計算進行了確認,其中DeepSeek-R1-Lite 預覽版、QwQ-32B-Preview 的驗證相對簡單一些,而GLM-Zero-Preview 不僅解題過程更清晰完整,也展現了自我反思、自我懷疑、自我肯定等擬人化的思考模式。

再來第二輪較量,這次是一道中文陷阱推理題,看看哪個模型頭腦比較清楚。

首先是o1 與QwQ-32B-Preview,思考過程很短:

GLM-Zero-Preview、DeepSeek-R1-Lite 預覽版的解釋更透徹,充分考慮了條件限制與現實世界的可能性。不過,DeepSeek-R1-Lite 預覽版的一些解釋又略顯重複,不如GLM-Zero-Preview 明了。

思考過程與思考鏈路的優勢,足以讓GLM-Zero-Preview 不輸其他一眾推理大模型。

結語

在對GLM-Zero-Preview 體驗一番後,我們的最大感受是:它的深度思考過程讓邏輯推理更加完整、連貫,準確度和說服力更強。從“審題、分析、多方式證明”到“自我懷疑、驗證、再驗證”到“最後確認”,環環相扣。

當然,智譜表示,目前GLM-Zero-Preview 與o3 還有不少的差距,未來將透過強化學習技術的持續最佳化迭代,讓它成為更聰明的推理者。正式版GLM-Zero 很快就會推出,到時候深度思考能力會從數理邏輯擴展到更通用的技術,確保更專精的同時全能性也更強。

回看這一整年,智譜動作不斷,GLM 家族更加壯大,包括基座模型、多模態模型、視頻生成模型、語音模型、推理模型以及智能體方面火出圈的AutoGLM、GLM-PC,如今這家大模型獨角獸的產品矩陣在完整度層面上以業界領先。

持續出新的背後是智譜對AGI 終極目標的追求。智譜形成了一套從L1 到L5 階段的AGI 路線圖,在AI 分級上註入自己的能力演化思考。在一步步邁向AGI 的過程中,從低到高在各個AI 層級做能力填充,夯實語言、多模態、邏輯推理、工具使用等基礎能力。GLM-Zero-Preview 代表智譜邁出了L4 階段的關鍵一步,大模型開始內省,並具備自我學習、自我反思、自我改進能力。

現在,市面上的推理大模型已經有了一些,甚至OpenAI 發布了更強的o3 系列模型。智譜在年末最後一天這個時間節點推出了自己的GLM-Zero,可見對於所有以AGI 為目標的玩家來說,2025 年模型推理能力無疑是被寄予厚望的一年。

來源:機器之心

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
2024年AI程式設計有多強? Google工程主管揭秘殘酷真相
NEXT
CPU競賽攻守易勢英特爾的敗退與AMD的崛起

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 1 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 12 月   2 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • Firefox新版本將支援Chrome已有多年的WebGPU功能 2025-07-17
  • 彩虹正式上架統信UOS 直接運行Windows應用 2025-07-17
  • 美團高層承諾:將保證美團騎士收入永遠站穩藍領第一梯隊 2025-07-17
  • 科尼賽克CEO直言:電動超跑沒有靈魂我們不造 2025-07-17
  • HTC預告VIVE神秘新品或為首款智慧眼鏡 2025-07-17
  • 據傳PS5 Pro將在明年5月進行性能升級推測為《GTA6》做準備 2025-07-17
  • 德國玩家偏愛A卡銷量佔65%超NV:RX9070XT賣最好 2025-07-17
  • 三星和SK海力士因意外需求推遲DDR4記憶體淘汰計劃 2025-07-17
  • 特斯拉Model YL外觀正式公佈:預估售價40萬尾標亮了 2025-07-17
  • 巴西一11歲女孩長了81顆牙齒醫師直呼活久見 2025-07-17

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 氣像模型預測澳洲將面臨史無前例、長達20年的大洪災
  • 您可以在Windows 11 24H2 中找回WordPad
  • 色斑的成因、類型與防治:全面解析皮膚色素沉積問題
  • 科學家開發新型“智能”繃帶將利用光來指示感染情況
  • CCleaner全家桶激活密鑰
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • 一鍵GHOST v2020.07.20 正式版-硬盤版/光盤版/優盤版/軟盤版
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 三星在針對中國京東方的OLED商業機密侵權案中取得決定性勝利

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.