DeepSeek"自言自語"式思考為何讓美國公司爭相效仿
中國人工智慧新創公司DeepSeek近期超越ChatGPT,登頂應用商店人工智慧應用榜首。其成功的一大關鍵在於引入了AI領域的最新熱門創意——一款在回答用戶問題前會「思考」的聊天機器人。

DeepSeek的「深度思考」(DeepThink)模式在回答每個問題之前都會顯示「思考中…」的提示,隨後產生一連串的推理過程,彷彿在與自己對話,最終得出答案。這些「自言自語」的思考過程也帶有類似「等等」「嗯」「啊哈」這樣的口語化表達,增強了對人類思考方式的模擬。
這項模式的推出迅速引發熱潮,美國AI公司也正在爭相效仿,試圖超越DeepSeek。這種「推理式」AI助手在某些任務上的確更準確,但它們的類人化思考過程也可能掩蓋自身的限制。
AI的「自言自語」推理技術(又稱「思維鏈」(Chain of Thought)推理),在2023年底成為人工智慧領域的新趨勢。當時,OpenAI和Google推出的AI工具,在解決數學和程式設計問題時透過逐步推理獲得了更高的測驗成績。
然而,這項新型AI助理起初並未向大眾開放。 OpenAI於2023年12月發布了o1系統,每月收費200美元,並未公開其內部推理機制。而DeepSeek的「思考」應用不僅免費提供,還開放了背後的R1推理模型,這在開發者群體中引發了極大的關注和討論。
艾倫人工智慧研究所(AI2)研究員內森·蘭伯特(Nathan Lambert)表示:“人們迫不及待地想將這種新方法應用到各種場景中。”
自DeepSeek崛起並導緻美國科技股大跌的兩週內,OpenAI迅速調整策略,在ChatGPT中免費開放部分推理技術,並推出了基於該技術的新工具「深度研究」(Deep Research),該工具能夠透過網路搜尋自動撰寫報告。
同時,Google也不甘落後,於上周宣布其競爭產品「Gemini 2.0 Flash Thinking Experimental」正式面向消費者開放,並透過其AI應用Gemini免費提供。
亞馬遜的雲端運算部門AWS則宣布,正大力投資「自動推理(Automated Reasoning)」技術,以增強用戶信任。
OpenAI接著調整了ChatGPT的介面,使其也能向使用者展示類似DeepSeek的「思維鏈」推理過程。
AI公司Anthropic的執行長 Dario Amodei)在一篇關於DeepSeek亮相對中美AI競爭影響的文章中預測,美國科技企業很快將投入數億至數十億美元,推動AI推理技術的升級。
科技業希望,這項技術不僅能提升數學和程式設計能力,還能拓展至更廣泛的領域,打造更接近人類思維方式的通用人工智慧(AGI)。
OpenAI執行長山姆·奧特曼(Sam Altman)在上月的部落格文章中表示:“我們現在有信心知道如何建立AGI(通用人工智慧)。”
GoogleGemini副總裁蕭茜茜(Sissie Hsiao)也表示,推理模式代表了一種AI發展的典範轉移。她指出:“推理模型揭開了生成式人工智慧的神秘面紗——通過展示其’思考過程’,使其更加透明、可信,同時也能更好地完成複雜任務。”
OpenAI發言人尼科·費利克斯(Niko Felix)則表示:“我們希望讓更多用戶了解推理模型的能力及其運作方式,以創造更優質的產品。用戶反饋表明,理解AI如何推理生成答案,不僅有助於更明智的決策,也能增強對AI回答的信任。”
“撞牆”
矽谷對推理技術的熱衷,源自於大語言模式下一次突破的追求。這類技術正是ChatGPT及同類人工智慧產品的核心驅動力。
過去,OpenAI的成功推動了整個科技產業圍繞著一個簡單的範式達成共識:向更龐大的人工智慧模型投入更多數據和運算能力,以提升其智慧水平。然而,近年來,這個公式的效果開始趨於停滯。
大語言模型在數學、科學和邏輯等行業基準測試中的提升速度不再像過去那樣迅猛,而互聯網上可用於訓練的公開數據也基本上被挖掘殆盡。
面對這項挑戰,Google、OpenAI 和Anthropic 等公司開始轉向優化現有人工智慧模型,以進一步挖掘其潛力。
一個備受關注的方法是「思維鏈」(Chain of Thought)技術,它讓人工智慧在回答問題時,將問題拆解成多個邏輯步驟,而不是直接產生最終答案。這項技術也是DeepSeek 等公司所採用的推理方法的一部分,其核心思路是讓模型花費更多時間和計算資源來推理,從而提高回答的準確性。
這項策略已被證明是有效的,尤其是在結合「強化學習」技術後,人工智慧的推理能力得到了進一步提升。強化學習透過在大量試誤過程中獎勵正確答案,引導人工智慧系統不斷優化自身行為,這也是電腦能夠掌握圍棋等複雜遊戲的關鍵。
這方法特別適用於數學、邏輯和程式設計等領域,因為電腦可以驗證最終答案的正確性。然而,仍然缺乏關於人類如何透過推理解決問題的數據支持。
起初,研究人員嘗試僱用人工標註員,記錄他們在回答問題時的推理過程。但這方法既緩慢又成本高昂,難以大規模推廣。
隨著人工智慧技術的進步,研究人員發現,AI 現在可以自行產生大量類似人類推理過程的「思維鏈」範例。經過不斷優化,研究人員逐步減少了對人工幹預的依賴,實現了AI 自主推理的突破。
DeepSeek 在今年1月發布的技術報告中表示,其早期推理模型R1-Zero 僅通過增加試錯輪次,便能夠自動形成更長的“思維鏈”,而無需特別創建額外數據。
艾倫人工智慧研究所的研究員內森蘭伯特表示:“實際上,你是在建造一個沙盒,讓模型在其中自行調整行為。”
儘管人工智慧在推理技術上的突破引發了廣泛熱議,但一些專家認為,公眾的熱情可能掩蓋了對其局限性的深入探討。
亞利桑那州立大學電腦科學教授蘇巴拉奧·坎巴姆帕蒂(Subbarao Kambhampati)指出,目前仍無法確定「思維鏈」是否真正反映了人工智慧系統的資訊處理方式。
他的研究表明,在面對實際應用場景,如規劃與調度任務時,人工智慧模型的推理能力可能會崩潰。此外,目前實驗室在訓練這些模型時,往往更關注最終答案的準確性,而非推理過程的合理性,使得推理品質難以量化。
以DeepSeek 的R1模型為例,其技術論文指出,在早期版本中,當「思維鏈」同時包含中文和英文時,模型產生的最終答案更準確。然而,研究人員最終選擇了一個全英文的自言自語模型,只是因為使用者更偏好這種呈現方式。
對此,坎巴姆帕蒂教授表示,企業應該讓人工智慧以最能提高答案準確性的方式“自言自語”,而不是刻意優化“思維鏈”以迎合人類用戶。他強調:“擺脫這種擬人化的處理方式更為重要,因為它並不會影響模型的實際能力。”
然而,人工智慧產業的發展方向似乎正與此觀點相反。自DeepSeek 崛起以來,矽谷的多個推理模型都採用了類似設計,鼓勵使用者相信AI 的「思考過程」類似於人類推理。
在ChatGPT 的主頁上,「推理」模式按鈕被放置在聊天框的顯眼位置。奧特曼在社群媒體上表示,「思維鏈」功能讓AI 能夠「展示其思考過程」。
研究實驗室Cohere for AI 負責人薩拉·胡克(Sara Hooker)指出,對於普通用戶而言,這種設計讓他們感覺自己正在「洞察演算法的運作方式」。但實際上,這種「自言自語」並非真正的透明度,而是優化AI 效能的一種手段。
賓州大學華頓商學院的人工智慧研究教授伊森·莫利克(Ethan Mollick)補充道,這種AI 展示「內心獨白」的方式可能會引發用戶的情感共鳴。他認為,相較於ChatGPT 穩重平淡的回答風格,DeepSeek R1則顯得「極度友好,甚至迫切希望取悅用戶」。
他進一步指出:“如今,我們正在見證一個奇怪的現象——硬核計算機科學與市場營銷正在融合,甚至連開發者們自己可能都難以區分兩者的界限。”