大模型發展遇困境OpenAI等巨頭尋求破局之道
根據路透社報道,OpenAI等人工智慧公司正在嘗試新的訓練方法,來克服大型語言模型發展中遇到的意外延遲和挑戰。十幾位AI科學家、研究人員和投資者告訴路透社,他們認為這些技術(OpenAI最近發布的o1模型)可能會重塑人工智慧軍備競賽的格局,並加劇人工智慧公司對能源、晶片類型等各類資源貪得無厭的需求。 OpenAI拒絕就此事發表評論。
兩年前,病毒式的ChatGPT聊天機器人發布後,從人工智慧熱潮中獲益的科技公司公開表示,透過增加數據和運算能力來「擴大」現有模型,會不斷改進人工智慧模型。
但現在,一些最傑出的人工智慧科學家則指出這種「越大越好」理念的限制。
人工智慧實驗室Safe Superintelligence(SSI)和OpenAI的聯合創始人伊利亞-蘇茨克沃爾(Ilya Sutskever)最近告訴路透社,擴大預訓練(即用大量未標記資料來訓練大模型)的結果已經趨於穩定,此訓練模式下的大模型發展空間已接近瓶頸。消息人士透露,為超越OpenAI的GPT-4模型,各大人工智慧實驗室都在競相發布大模型,但這一過程一直伴隨著延遲以及種種令人失望的結果。
大型模型的所謂「訓練運行」是透過耗資數千萬美元,同時運行數百個晶片來進行的。由於系統非常複雜,它們更容易出現硬體故障;研究人員可能要等到運行結束後才能知道模型的最終性能,而這可能需要幾個月的時間。
另一個問題是,大型語言模型會吞噬大量數據,而人工智慧模型已經耗盡了世界上所有容易取得的數據。電力短缺也阻礙了訓練運行,因為這個過程需要大量能源。
探索新途徑
為了克服這些挑戰,研究人員正在探索「測試時間計算」,這種技術可以在所謂的「推理」階段,或者在使用模型時,增強現有的人工智慧模型。例如,模型可以即時產生並評估多種可能性,最終選擇最佳前進路徑,而不是立即選擇單一答案。
這種方法可以讓模型將更多的處理能力用於具有挑戰性的任務,例如數學或編碼問題,或用於需要像人類一樣進行推理和決策的複雜操作時。
上個月在舊金山舉行的TED人工智慧大會上,曾參與o1研究的OpenAI研究員諾姆-布朗(Noam Brown)說:「事實證明,機器人在撲克牌遊戲中思考20秒鐘,與將機器人背後的模型放大10萬倍、訓練時間延長10萬倍,兩種方式所獲得的提升性能是一樣的。
同時,據相關人士透露,其他頂級人工智慧實驗室(Anthropic、xAI和DeepMind等)的研究人員,也一直在努力開發自己版本的技術。