對話鄭緯民院士：用超算做AI大模型訓練成本只需英偉達1/6

2025-01-02 Comments 0 Comment

在訓練人工智慧大模型的過程中，採購超級運算服務或記憶體，也正在成為有效緩解算力焦慮的新途徑。近日，中國工程院院士、清華大學計算機系教授鄭緯民在與新浪科技溝通中指出，「過去訓練一個大模型要投入幾十億，但如果把大模型訓練拿到超算上去做，價錢只需要用到英偉達的六分之一。

此外，鄭緯民也指出了一種全新的AI推理發展新趨勢—「以存換算」。他以清華大學與AI獨角獸企業月之暗面共同開發的Mooncake技術框架為例，介紹了該技術基於「以存換算」思路，幫助月之暗面kimi智能助手緩解算力緊張需求的原理，從而避免伺服器宕機。

“把大模型訓練搬到超算上，價錢只需英偉達1/6”

鄭緯民看到，在經過ChatGPT發布後全球各科技企業快速追趕後，今年大模型有兩個特點：第一，基礎大模型進入多模態狀態，不只有文本，還有圖像、視頻等；第二，真的用起來了，大模型正與各行業實際的結合，例如大模型+金融，大模型+醫療、大模型+汽車、大模型+智慧製造等。

「大模型真的在與國民經濟GDP、跟人們的生活水平密切結合，我一直認為基礎大模型我們的水平跟美國比還是差一點，但’大模型+’這件事，我們還是有希望超過美國的。

然而，大模型真實的應用過程中，在涉及資料取得、資料預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中，卻需要大量的算力資源。如何以更低的成本取得更有效率、更高可靠的AI大模式算力資源，成為每家企業都在思考的問題。

迫於海外高階晶片取得的困難，目前國內為滿足AI大模型訓練帶來的海量算力需求，主要發展出的一種解決思路是：透過搭建千卡、萬卡集群，透過海量晶片半導體堆疊，採購多家廠商的晶片進行異質卡聯合訓練，來滿足自己大模型產品訓練的海量算力需求。但在鄭緯民看來，這種方式雖能解決算力缺問題，但也存在一些缺點。

首先，對於建構國產萬卡系統，建成固然重要，但用好卻很難。鄭緯民以自己做高效能運算的親身經歷現身說法道：「建造一個2000卡的系統，其中1000塊用英偉達晶片，另外1000塊用其他廠家的，系統建成也運轉起來了，但最終發現這些晶片性能不一，有的本事小一點，有的本事大一點，一個任務下來分成2000份，還要給其中1000個芯片分小一點的任務，另外1000個分大一點的任務，這還是靜態的，如果是動態的，則直接分成了2000份最小的進行處理，性能很低。

鄭緯民指出，大規模算力集群建設過程中存在木桶效應，有的計算卡能力強，有的則弱，就像整個桶裝多少水最終是由短板決定的，板子再長也沒有用。 “所以1000個老GPU和1000個新GPU合起來，性能比2000個老GPU性能還低一點，做大規模算力集群的成本也挺大。”

在鄭緯民看來，進行大規模異質卡聯合訓練，在靜態環境下想要實現最高的性能很難，並不划算，如果再涉及異地卡，就會更難，資料從北京傳到貴州，貴州做出來結果再送到上海，這中間涉及的時間成本極高。「錢少的人不需要做，錢多的人可以試試。”

鄭緯民建議企業嘗試採用超算進行AI大模型訓練。「我國有14億超算系統，錢都是國家付的，有的機器還有一點富餘，因為國內超算機器收費便宜，不像英偉達要把機器成本收回來還要賺錢，所以大家做大模型訓練到青島神威超算上做，六分之一的價格就夠了。

“以存換算，能夠有效降低AI推理成本”

事實上，在大模型真實的應用過程中，在涉及資料取得、資料預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中，需要大量算力資源的同時，也需要有著大量的儲存資源，用於儲存海量運算結果。尤其在模型推理過程中，如何存得多、傳得快、性價比高，成為整個產業都在共同思考的問題。

先前，鄭緯民曾公開提及，「AI儲存是人工智慧大模型的關鍵基座，儲存系統存在於大模型生命週期的每一環，是大模型的關鍵基座，透過以存強算、以存換算，先進的AI儲存能夠提升訓練叢集可用度，降低推理成本，提升使用者體驗。

在與新浪科技溝通中，鄭緯民分享了「以存換算」的基本原則。他指出，「大模型不管是訓練還是推理，都需要很大的算力，同時也需要很多存儲，用來存儲大模型訓練出來的海量參數，以及推理過程中產生的一些過程數據。」然而，如果整個訓練或推理過程中需要儲存的資料越來越多，這會導致記憶體資源緊缺，最終反而又會成為大模型效能提升的「負擔」。

根據鄭緯民介紹，為解決上述問題，清華大學想了兩個辦法：第一，在推理過程當中，目前主要是推理卡工作，主機CPU跟主機記憶體是不用的，因此，可以想辦法把主機上的記憶體用到推理過程中，提升了記憶體利用率，效能提升的同時，也節省了不斷購買推理卡的資金成本；第二，將推理過程中產生的共性的、用戶共用的內容存儲起來，通過存儲必要推理過程中產生的數據，當後續遇到類似問題的時候直接調用，直接省去了每次遇到類似問題時推理過程，提升了效率，同時也節省了資源。

鄭緯民以清華大學與月之暗面共同研發的Mooncake技術框架為例介紹指出，「透過將不同用戶與Kimi對話的公共內容提煉出來，儲存下來，這不僅減少了每次用戶提問都要重新生成的過程，節省了許多算力卡，也減少了kimi因訪問過大導致的’訪問延遲’或’宕機’等問題。

文丨新浪科技周文猛

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

對話鄭緯民院士：用超算做AI大模型訓練成本只需英偉達1/6

2025-01-02 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆