自建低成本生成式人工智慧的熱潮才剛開始
據報道,OpenAI 正以3000 億美元的更高估值籌集更多資金,但對基於生成式人工智慧熱潮的大型科技股泡沫的擔憂,已經削弱了市場領先企業的地位。中國的DeepSeek 的出現是一個主要原因,現在,數十億美元的人工智慧資料中心建設正受到審視,阿里巴巴聯合創始人蔡崇信最近也發出了警告。但在史丹佛大學和加州大學柏克萊分校等頂尖學校的電腦科學家當中,只需30 美元就能建構一個大語言模型的能力,帶來了「頓悟」 時刻。

當DeepSeek 發布其R1 模型,並聲稱僅花費600 萬美元就實現了其生成式人工智慧大語言模型時,包括微軟投資的OpenAI 在內的美國人工智慧市場領先企業所投入的數十億美元資金,立即受到了審視。
DeepSeek 的成本分析仍受到懷疑,投資人對OpenAI 的信心也沒有減弱。據報道,它準備以高達3000 億美元的估值進行一輪400 億美元的融資,並表示今年的收入將增長兩倍,達到127 億美元。熱門人工智慧晶片公司CoreWeave 本週也希望重振不穩定的首次公開募股(IPO)市場,並開啟人工智慧股票發行熱潮。但對人工智慧市場是否發展過快、支出水準是否過高的擔憂也並未停止。
今年到目前為止,「七巨頭」 科技股一直是市場表現最差的股票之一,就在本週,阿里巴巴聯合創始人蔡崇信警告稱,他看到了美國人工智慧泡沫正在形成的跡象。隨著對人工智慧發展以及美國在人工智慧競賽中領先地位的預期不斷調整,其影響已經廣泛蔓延,從要求實施更嚴厲的晶片禁運以減緩中國的發展,到另一方面,風險投資家們向中國的人工智慧開發者投入更多資金。
但對於美國人工智慧領域的一些人來說,一切仍在全速前進,因為生成式人工智慧領域的廉價採購熱潮,讓研究人員能夠以前所未有的方式推動大語言模型的建構能力,而在DeepSeek 出現之前,他們似乎無法做到這一點。
加州大學柏克萊分校的研究人員是最早對DeepSeek 進行小規模語言模式復現的團隊之一,而且只花了30 美元。這是在公有雲上租用兩塊英偉達H200 圖形處理器(GPU),並使用簡單遊戲來訓練「30 億參數」(3B)模型的費用—— 這裡的「30 億」 指的是模型中的參數數量,實際上比最複雜的大語言模型(其參數數量可達數萬億)要少得多。
「在DeepSeek R1 發布後,我們立即啟動了這個計畫。」TinyZero 計畫負責人、該校研究生研究員潘佳怡說。
OpenAI 的突破對該團隊的研究興趣同樣至關重要,潘佳怡表示,他們對一種新的人工智慧推理範式著迷,這種範式「旨在讓人工智慧在做出回應之前多花些時間思考」。
但DeepSeek R1 是第一個有助於解釋如何實現這種「先思考再回答」 能力的公開研究,這種能力提高了人工智慧模型的效能。 「我們非常好奇這種演算法是如何運作的。」潘佳怡 說。但潘佳怡補充道,即便DeepSeek 據說只花了600 萬美元來訓練其R1 模型,這對他們來說「還是太貴了」。
TinyZero 計畫背後的主要思路是,如果在減少模型規模的同時降低任務複雜度,模型仍然能夠展現出湧現的推理行為。這些調整將大幅降低成本,同時仍能讓研究人員測試和觀察實際的推理行為。
人工智慧的「頓悟」 時刻
為了驗證這個思路,團隊在一個名為「倒數計時」(Countdown)的數學遊戲中復現了DeepSeek R1-Zero 演算法,這個遊戲更注重推理能力,而不是基於已有的「領域」 知識(即數學知識)來尋找解決方案。在這個遊戲中,人工智慧需要得出一個目標數字,可以透過加、減、乘或除來實現。
起初,TinyZero 採用隨機的方法來尋找目標數字;然而,經過訓練,它開始學會調整方法,找到更好、更快的解決方案。而且,即使任務複雜度和模型規模都降低了,模型仍能展現出湧現的推理行為。它透過在遊戲的參數範圍內學習玩這個遊戲,學會了推理。
「我們證明了,即使是像30 億參數這麼小的模型,也能學會對簡單問題進行推理,並開始學會自我驗證和尋找更好的解決方案。」潘佳怡說。她表示,這是DeepSeek R1 和OpenAI o1 發布成果中的關鍵結果,通常被稱為「頓悟時刻」。
雖然最大的人工智慧模型、DeepSeek 和TinyZero 這樣的專案之間存在顯著差異,但湧現的推理行為是相似的,TinyZero 這樣的成功案例表明,預算有限的研究人員、工程師和愛好者也能夠接觸到前沿的人工智慧演算法。
「我們的計畫吸引了許多人造訪我們在GitHub 上的頁面,復現實驗並親自體驗『頓悟』時刻。」潘佳怡說。
史丹佛大學的研究人員最近發布了他們關於使用「倒數計時」 遊戲來觀察人工智慧如何學習的預印本論文,並克服了先前阻礙他們進展的工程挑戰。
「TinyZero 很棒。」 該計畫的首席研究員卡尼什克・甘地說,因為它使用了「倒數計時」遊戲,這是史丹佛團隊引入並正在研究的任務。
其他人工智慧專案的開源也起到了重要作用,包括由TikTok 的母公司位元組跳動創建的火山引擎強化學習系統(VERL)。 “VERL 對我們運行實驗至關重要。” 甘地說。 “這種一致性極大地幫助了我們進行實驗,並實現了更快的迭代周期。”
超越“大實驗室”,依靠開源
史丹佛團隊試圖理解為什麼一些大語言模型在推理能力上有顯著提升,而另一些則停滯不前,甘地表示,他不再期望與推理、智慧和改進相關的電腦科學突破必然來自大型實驗室。 「即使在大型實驗室內部,對當前大語言模型的科學理解也存在缺失,因為其能力正在不斷提高。在自主開發人工智慧、開源和學術界方面,有很大的空間可以在此做出貢獻。」他說。
像是史丹佛大學和加州大學柏克萊分校的這些項目,將基於如何訓練能夠自我提高推理能力的模型的研究,帶來更多的共享開發成果。
但即使是這些超低成本的模型,也比研究人員所解釋的要昂貴。
人工智慧商業顧問公司OneSix 的高級首席機器學習科學家尼娜・辛格表示,TinyZero 這樣的計畫的開源方面依賴於在其他基礎模型之上進行訓練,其中不僅包括VERL,還包括阿里雲開源的通義千問(Qwen)大語言模型。 「所說的30 美元訓練成本不包括通義千問最初的訓練時間,阿里巴巴在將其作為開源權重發布之前,在這上面投入了數百萬美元。」她說。
辛格表示,這並不是對TinyZero 的批評,而是強調了開源權重模型的重要性—— 即使沒有完全開源人工智慧資料和架構,這些模型也會向公眾發布訓練參數,從而推動進一步的研究和創新。
「針對特定任務進行微調的較小人工智慧模型,能夠以更小的規模和成本與大得多的模型相媲美。」辛格說。
隨著越來越多的個人、學者和小型公司期望在無需進行大規模基礎設施投資的情況下就能參與到人工智慧領域,嘗試模仿基礎模型的性能並針對特定任務進行微調的趨勢正在增長。辛格舉了Sky-T1 的例子,它為用戶提供了花費450 美元訓練自己的o1 模型的能力,還有阿里巴巴的通義千問,最低只需6 美元就能進行人工智慧模型的微調。
辛格預計,較小計畫的開源權重模型將促使主要參與者採用更開放的方法。 「自主微調以及社群驅動的模型改進的成功,給像OpenAI 和Anthropic 這樣的公司帶來了壓力,要求它們為其受API 限制的模型提供合理依據,尤其是當開源替代方案在特定領域開始達到或超過它們的能力時。」她說。
TinyZero 最重要的發現之一是,資料品質和針對特定任務的訓練,比單純的模型規模更重要。
「這是一個重大發現,因為它挑戰了行業中普遍存在的觀點,即只有像ChatGPT 或(Anthropic 的)Claude 這樣擁有數千億參數的大規模模型,才能夠進行自我修正和迭代學習。」辛格說。 “這個項目表明,我們可能已經越過了一個臨界點,即額外增加參數帶來的收益正在遞減—— 至少對於某些任務來說是這樣。”
這意味著人工智慧領域的重點可能正在從模型規模轉向效率、可近性和有針對性的智慧。
或者正如TinyZero 團隊在專案頁面上自己所說:“你可以用不到30 美元親自體驗’頓悟’時刻。”