大模型發展遇困境OpenAI等巨頭尋求破局之道

2024-11-12 Comments 0 Comment

根據路透社報道，OpenAI等人工智慧公司正在嘗試新的訓練方法，來克服大型語言模型發展中遇到的意外延遲和挑戰。十幾位AI科學家、研究人員和投資者告訴路透社，他們認為這些技術（OpenAI最近發布的o1模型）可能會重塑人工智慧軍備競賽的格局，並加劇人工智慧公司對能源、晶片類型等各類資源貪得無厭的需求。 OpenAI拒絕就此事發表評論。

兩年前，病毒式的ChatGPT聊天機器人發布後，從人工智慧熱潮中獲益的科技公司公開表示，透過增加數據和運算能力來「擴大」現有模型，會不斷改進人工智慧模型。

但現在，一些最傑出的人工智慧科學家則指出這種「越大越好」理念的限制。

人工智慧實驗室Safe Superintelligence（SSI）和OpenAI的聯合創始人伊利亞-蘇茨克沃爾（Ilya Sutskever）最近告訴路透社，擴大預訓練（即用大量未標記資料來訓練大模型）的結果已經趨於穩定，此訓練模式下的大模型發展空間已接近瓶頸。消息人士透露，為超越OpenAI的GPT-4模型，各大人工智慧實驗室都在競相發布大模型，但這一過程一直伴隨著延遲以及種種令人失望的結果。

大型模型的所謂「訓練運行」是透過耗資數千萬美元，同時運行數百個晶片來進行的。由於系統非常複雜，它們更容易出現硬體故障；研究人員可能要等到運行結束後才能知道模型的最終性能，而這可能需要幾個月的時間。

另一個問題是，大型語言模型會吞噬大量數據，而人工智慧模型已經耗盡了世界上所有容易取得的數據。電力短缺也阻礙了訓練運行，因為這個過程需要大量能源。

探索新途徑

為了克服這些挑戰，研究人員正在探索「測試時間計算」，這種技術可以在所謂的「推理」階段，或者在使用模型時，增強現有的人工智慧模型。例如，模型可以即時產生並評估多種可能性，最終選擇最佳前進路徑，而不是立即選擇單一答案。

這種方法可以讓模型將更多的處理能力用於具有挑戰性的任務，例如數學或編碼問題，或用於需要像人類一樣進行推理和決策的複雜操作時。

上個月在舊金山舉行的TED人工智慧大會上，曾參與o1研究的OpenAI研究員諾姆-布朗（Noam Brown）說：「事實證明，機器人在撲克牌遊戲中思考20秒鐘，與將機器人背後的模型放大10萬倍、訓練時間延長10萬倍，兩種方式所獲得的提升性能是一樣的。

同時，據相關人士透露，其他頂級人工智慧實驗室（Anthropic、xAI和DeepMind等）的研究人員，也一直在努力開發自己版本的技術。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

大模型發展遇困境OpenAI等巨頭尋求破局之道

2024-11-12 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆