阿里開源「零搜尋」技術訓練成本直降88% 準確度超Google搜索
阿里巴巴5月7日發表於arXiv的論文透露,阿里巴巴達摩院研發的「零搜尋」(ZeroSearch)技術突破性破解AI訓練成本困境。該技術能透過模擬搜尋引擎訓練機制,使大模型在無需呼叫真實搜尋引擎API的情況下自主進化檢索能力。

▲阿里巴巴達摩院研究團隊發表於arXiv的論文原文
「零搜尋」技術打破依賴科技巨頭的API經濟模式,開發者可精準控制訓練資料品質。目前開源程式碼已登陸GitHub和Hugging Face平台,涵蓋Qwen-2.5、LLaMA-3.2等主流架構,支援基礎版和指令微調版模型。新創企業可用四塊A100顯示卡搭建高精準度訓練環境。
在包含NQ、TriviaQA、PopQA、HotpotQA等七大主流問答資料集的綜合評量中,基於「零搜尋」技術訓練的140億參數大模型不僅搜尋準確率力壓Google,更實現訓練成本直降近九成。

▲arXiv論文原文中的七大主流問答資料集的綜合測評圖表
根據VentureBeat今天報道,原本需要調用商業搜尋引擎API的586.70美元(折合人民幣約4,240.74元)開銷,如今僅需70.80美元(折合人民幣約為510.17元)即可完成同等量級訓練任務。這項創新讓AI模型在「自我模擬」(self-simulated)中獲得出類似搜尋搜尋引擎的檢索能力。
一、 「零搜尋」 技術成本大降超八成,效能超越Google搜尋
研究人員使用SerpAPI呼叫Google搜尋服務作為對照組,透過模擬傳統AI訓練流程中呼叫商業搜尋引擎API的場景,與「零搜尋」技術方案進行成本對比。
研究人員測算,使用SerpAPI調用Google搜索處理約6.4萬次查詢,成本約為586.70美元(約合人民幣為4228.82元);而在四塊A100 GPU上運行14B參數的大語言模型,僅需70.80美元(折合人民幣約為510.43元),節省幅度高達88%。
根據TechCrunch 2024年11月報道,從目前存在的一些公開資訊透露,SerpAPI旨在幫助開發者繞過複雜的網頁解析流程,SerpAPI能透過API呼叫取得Google、Bing、百度等主流搜尋引擎的搜尋結果資料。
SerpAPI的實際企業用戶包括Jasper.ai、Copy.ai等AI新創公司,這些企業透過API介面取得即時搜尋結果訓練對話系統,但具體成本資料未被揭露。
二、阿里大模型能產生擬真文檔,較GoogleAPI節省88%開支
阿里巴巴的研究團隊發現,經過大量預訓練的大模型已具備擬真文件產生能力。透過監督微調將大語言模型轉換為檢索模組,能按需產生相關或無關文件組合。
在強化學習階段,系統透過漸進式降低產生文件品質的“教學方案”,迫使模型持續優化檢索精度,形成自主進化閉環。
根據VentureBeat今天報道,在TriviaQA等7個主流問答資料集測驗中,基於通義千問2.5、LLaMA3.2等架構的模在數學視覺推理測驗中得分超過OpenAI o1,展現了強大的圖形與數學結合的分析能力。 14B參數模型在事實準確度指標上超越Google搜尋2.3個百分點,7B模型與商業引擎持平。相同訓練量下模擬方案較Google搜尋API節省88%開支。
結論:「零搜尋」技術推動AI產業進入低成本自主進化階段
阿里巴巴達摩院的突破可能是AI訓練範式的重要轉折。當大模型能在封閉系統內模擬現實世界資訊的交互,使用者得以擺脫對外部服務的依賴,對資料安全、訓練可控性和技術民主化或具有深遠意義。
從產業發展趨勢來看,「零搜尋」技術可望對AI開發價值鏈產生深遠影響。隨著自模擬技術成熟,未來,或將湧現更多AI訓練方案,推動產業進入低成本自主進化的新階段。