「越大越好」的路徑走不通? OpenAI正在尋求訓練模型的新方法
許多人工智慧(AI)科學家和新創公司認為,透過增加更多數據和算力來擴大當前模型,以持續改進AI模型的方法正在走到盡頭。因此,像OpenAI這樣的AI公司正在尋求透過開發新的訓練技術來克服當前面臨的挑戰,這些技術更像人類的思考方式。
自從風靡全球的聊天機器人ChatGPT發布以來,科技公司都是透過增加更多數據和算力來擴大並改善AI模型。但現在,一些最傑出的AI科學家正在指出這種「越大越好」的限制。
人工智慧實驗室Safe Superintelligence和OpenAI的聯合創始人Ilya Sutskever近日表示,擴大預訓練(訓練AI模型的階段,該模型使用大量未標記的數據來理解語言模式和結構)所取得的成果已經達到了一個平穩期,對提升模型效能的幫助有限。
Sutskever早期主張透過在預訓練中使用更多資料和算力來實現生成式AI的巨大飛躍,這最終創造了ChatGPT。他今年稍早離開OpenAI,創立了Safe Superintelligence。
Sutskever表示:“以前是規模擴張的時代,現在我們又回到了奇蹟和發現的時代。每個人都在尋找下一個東西,這比以往任何時候都更重要。”
此外,Sutskever也承認他的公司正在研究一種擴大預訓練規模的替代方法,但未透露更多細節。
新科技競賽
大模型的所謂「訓練」需要同時運行數百個晶片,成本可能高達數千萬美元。考慮到系統的複雜性,它們更有可能出現硬體導致的故障;在測試結束之前,研究人員可能無法知道這些模型的最終性能,這可能需要幾個月的時間。
另一個問題是,大語言模型吞噬了大量數據,而AI模型已經耗盡了世界上所有容易取得的數據。電力短缺也阻礙了訓練運行,因為這個過程需要大量的能源。
為了克服這些挑戰,研究人員正在探索測試時計算(test-time compute),這是一種在所謂的推理階段或使用模型時增強現有AI模型的技術。例如,模型可以即時產生和評估多種可能性,最終選擇最佳前進路徑,而不是立即選擇一個答案。
這種方法使模型能夠將更多的處理能力投入到具有挑戰性的任務中,例如數學或編碼問題或需要類似人類的推理和決策的複雜操作。
OpenAI研究員Noam Brown先前表示:“事實證明,讓一個機器人在一盤撲克牌中思考20秒,與將模型放大10萬倍、訓練時間延長10萬倍的效果相同。”
OpenAI 在其新發布的模式「o1」中採用了這項技術,同時,來自Anthropic、xAI和DeepMind等其他頂尖AI實驗室的研究人員也在致力於開發自己的技術版本。
OpenAI首席產品Kevin Weil表示:“我們看到了很多低垂的果實,摘下來讓這些模型變得更好。等到人們迎頭趕上的時候,我們會努力開發新的技術。”
多位科學家、研究人員和投資者認為,這種新技術可能會重塑AI軍備競賽,並對AI公司所需求的各類資源產生影響。