Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

大模型集體「掛科」 最新中文網頁檢索測試結果顯示GPT-4o準確率僅6.2%

大模型集體「掛科」 最新中文網頁檢索測試結果顯示GPT-4o準確率僅6.2%

2025-05-07 Comments 0 Comment

你以為大模型已經能輕鬆「上網」了?新基準測試集BrowseComp-ZH直接打臉主流A​​I。 BrowseComp-ZH是由港科大(廣州)、北大、浙大、阿里、位元組跳動、NIO等機構聯合發布的新基準測試集,讓20多個中外主流大模型集體「掛科」:

GPT-4o在測試中準確率僅6.2%;多數國產/國際模型準確率跌破10%;即便是目前表現最好的OpenAI DeepResearch,也僅得42.9%。

目前,BrowseComp-ZH的全部資料已開源發布。

研究團隊直言:

“當前主流模型,距離成為真正懂中文互聯網的智能體,還差得遠。”

為什麼我們需要中文網頁能力測驗?

如今的大模型越來越擅長「用工具」:能連搜尋引擎、能呼叫外掛、能「看網頁」。

但眾多評估工具都只在英文語境下建立,對中文語境、中文搜尋引擎、中文平台生態考量甚少。

然而,中文網路資訊片段化嚴重、搜尋入口多樣、語言表達複雜。

中文網頁世界到底有多難?舉幾個例子你就明白了:

資訊碎片化,分散在百度百科、微博、地方政府網站、影片號碼等多平台

常見的語言結構含有省略、典故、代指,關鍵字檢索常常「偏離」

搜尋引擎本身品質參差,資訊「沉底」或「走丟」都是常事

因此,英文測驗集「翻譯一下」根本不夠。

需要從中文語境原生設計,才能真正衡量大模型是否能在中文網頁上「看得懂」、「搜得到」、「推得準」。

BrowseComp-ZH是怎麼煉成的?

研究團隊採用了「逆向設計法」:從一個明確、可驗證的事實答案出發(如某個畫畫、機構、影視劇名),反向構造出多個約束條件的複雜問題,確保以下三點:

百度/Bing/Google三大搜尋引擎首屏無法直接命中答案

多個主流大模型在檢索模式下也無法直接答對

經過人工驗證,問題結構清晰,且僅有唯一答案

最終,他們建構了289道高難度中文多跳檢索題目,涵蓋影視、藝術、醫學、地理、歷史、科技等11大領域。

大模型集體「翻車」? DeepResearch勉強破四成,絕大多數連10%都不到

在BrowseComp-ZH的測試下,多款國內外主流大模型集體「翻車」:

儘管這些模型在對話理解、生成表達方面已展現強大實力,但在面對中文互聯網的複雜檢索任務時,準確率普遍低得驚人:

多數模型準確率低於10%,僅少數能突破20%

OpenAI DeepResearch以42.9%位列第一,仍遠未“及格”

研究者指出,這一結果說明:模型不僅需要會“查資料”,更要會“多跳推理”與“信息整合”,才能在中文互聯網中真正找到答案。

四大發現,揭示中文網頁任務的“模型死角”

1. 僅靠記憶不行,得真本事

純靠參數記憶(無搜尋)的模型準確率往往低於10%,表示「硬背」不靠譜。

2. 有推理的模型,表現較好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成為關鍵變數。

3. 搜得多≠搜得準,多輪策略才是王道

具備多輪檢索能力的AI搜尋產品全面勝出:

深度研究:42.9%

豆包Deep Search:26.0%

Perplexity Research模式:22.6%

相較之下,只檢索一次的模型(如Kimi、Yuanbao)準確率低至個位數。

4. 搜尋功能「翻車」?接入反而變差

最典型的反例是DeepSeek-R1,開啟搜尋功能後準確率從23.2%斷崖式跌至7.6%。

研究指出,模型未能將網頁檢索資訊與已有知識有效融合,反而被誤導。

資料集開放!歡迎模型開發者挑戰

BrowseComp-ZH的全部資料已開源發布。

研究者希望此基準測試能成為推動LLM在中文資訊環境落地的試金石,協助建構真正「會用中文上網」的智能體。

下一步,他們計劃擴充樣本規模,拓展問答形式,並深入分析模型推理路徑與失敗案例。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
美專家:中國跨境電商遭關稅衝擊但千萬別低估他們
NEXT
《劍星》PC版沿用虛幻4引擎模組作者稱“利好玩家”

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • NEO半導體將模仿快閃記憶體製造512GB記憶體採用3D X-DRAM結構進行堆疊 2025-05-22
  • 高合汽車或將復活:全新公司成立註冊資本超10億 2025-05-22
  • 電影《尋秦記》宣布2025賀歲檔上映古天樂等原班人馬回歸 2025-05-22
  • 2025年版Model 3歐洲NCAP測驗成績公佈:五星 2025-05-22
  • 彩虹-YH1000無人物流機首飛成功一口氣能飛1500公里 2025-05-22
  • 微軟正在開發Windows 11/Android跨裝置復原功能 2025-05-22
  • 全球TWS耳機出貨量最新排名:小米殺上第二首度突破900萬副 2025-05-22
  • 用印度程式設計師假扮AI的獨角獸宣告倒閉微軟亞馬遜都曾被坑 2025-05-22
  • 福特CEO驚嘆中國車企研發速度:只有傳統車廠一半時間 2025-05-22
  • 儘管創辦人面臨法律風險Telegram獲利仍躍升至5.4億美元 2025-05-22

熱門文章與頁面︰

  • 微軟員工再次擾亂Satya Nadella 的主題演講
  • Google製作了專門針對UI設計的AI開發工具
  • 您可以在Windows 11 24H2 中找回WordPad
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 索泰展示全球最小RTX 5060 Ti 16GB主機機箱容量僅2.65公升
  • 半導體資本支出驟降代工巨頭擴張速度減緩
  • 一文看懂Google I/O 2025開發者大會: Android、Chrome、搜尋、Gemini
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 六年後Razer終於為Mac帶來了Synapse配置實用程式

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.