對話鄭緯民院士:用超算做AI大模型訓練成本只需英偉達1/6
在訓練人工智慧大模型的過程中,採購超級運算服務或記憶體,也正在成為有效緩解算力焦慮的新途徑。近日,中國工程院院士、清華大學計算機系教授鄭緯民在與新浪科技溝通中指出,「過去訓練一個大模型要投入幾十億,但如果把大模型訓練拿到超算上去做,價錢只需要用到英偉達的六分之一。
此外,鄭緯民也指出了一種全新的AI推理發展新趨勢—「以存換算」。他以清華大學與AI獨角獸企業月之暗面共同開發的Mooncake技術框架為例,介紹了該技術基於「以存換算」思路,幫助月之暗面kimi智能助手緩解算力緊張需求的原理,從而避免伺服器宕機。
“把大模型訓練搬到超算上,價錢只需英偉達1/6”
鄭緯民看到,在經過ChatGPT發布後全球各科技企業快速追趕後,今年大模型有兩個特點:第一,基礎大模型進入多模態狀態,不只有文本,還有圖像、視頻等;第二,真的用起來了,大模型正與各行業實際的結合,例如大模型+金融,大模型+醫療、大模型+汽車、大模型+智慧製造等。
「大模型真的在與國民經濟GDP、跟人們的生活水平密切結合,我一直認為基礎大模型我們的水平跟美國比還是差一點,但’大模型+’這件事,我們還是有希望超過美國的。
然而,大模型真實的應用過程中,在涉及資料取得、資料預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中,卻需要大量的算力資源。如何以更低的成本取得更有效率、更高可靠的AI大模式算力資源,成為每家企業都在思考的問題。
迫於海外高階晶片取得的困難,目前國內為滿足AI大模型訓練帶來的海量算力需求,主要發展出的一種解決思路是:透過搭建千卡、萬卡集群,透過海量晶片半導體堆疊,採購多家廠商的晶片進行異質卡聯合訓練,來滿足自己大模型產品訓練的海量算力需求。但在鄭緯民看來,這種方式雖能解決算力缺問題,但也存在一些缺點。
首先,對於建構國產萬卡系統,建成固然重要,但用好卻很難。鄭緯民以自己做高效能運算的親身經歷現身說法道:「建造一個2000卡的系統,其中1000塊用英偉達晶片,另外1000塊用其他廠家的,系統建成也運轉起來了,但最終發現這些晶片性能不一,有的本事小一點,有的本事大一點,一個任務下來分成2000份,還要給其中1000個芯片分小一點的任務,另外1000個分大一點的任務,這還是靜態的,如果是動態的,則直接分成了2000份最小的進行處理,性能很低。
鄭緯民指出,大規模算力集群建設過程中存在木桶效應,有的計算卡能力強,有的則弱,就像整個桶裝多少水最終是由短板決定的,板子再長也沒有用。 “所以1000個老GPU和1000個新GPU合起來,性能比2000個老GPU性能還低一點,做大規模算力集群的成本也挺大。”
在鄭緯民看來,進行大規模異質卡聯合訓練,在靜態環境下想要實現最高的性能很難,並不划算,如果再涉及異地卡,就會更難,資料從北京傳到貴州,貴州做出來結果再送到上海,這中間涉及的時間成本極高。 「錢少的人不需要做,錢多的人可以試試。”
鄭緯民建議企業嘗試採用超算進行AI大模型訓練。 「我國有14億超算系統,錢都是國家付的,有的機器還有一點富餘,因為國內超算機器收費便宜,不像英偉達要把機器成本收回來還要賺錢,所以大家做大模型訓練到青島神威超算上做,六分之一的價格就夠了。
“以存換算,能夠有效降低AI推理成本”
事實上,在大模型真實的應用過程中,在涉及資料取得、資料預處理、模型訓練、模型微調、模型推理等五個環節在內的全生命週期中,需要大量算力資源的同時,也需要有著大量的儲存資源,用於儲存海量運算結果。尤其在模型推理過程中,如何存得多、傳得快、性價比高,成為整個產業都在共同思考的問題。
先前,鄭緯民曾公開提及,「AI儲存是人工智慧大模型的關鍵基座,儲存系統存在於大模型生命週期的每一環,是大模型的關鍵基座,透過以存強算、以存換算,先進的AI儲存能夠提升訓練叢集可用度,降低推理成本,提升使用者體驗。
在與新浪科技溝通中,鄭緯民分享了「以存換算」的基本原則。他指出,「大模型不管是訓練還是推理,都需要很大的算力,同時也需要很多存儲,用來存儲大模型訓練出來的海量參數,以及推理過程中產生的一些過程數據。」然而,如果整個訓練或推理過程中需要儲存的資料越來越多,這會導致記憶體資源緊缺,最終反而又會成為大模型效能提升的「負擔」。
根據鄭緯民介紹,為解決上述問題,清華大學想了兩個辦法:第一,在推理過程當中,目前主要是推理卡工作,主機CPU跟主機記憶體是不用的,因此,可以想辦法把主機上的記憶體用到推理過程中,提升了記憶體利用率,效能提升的同時,也節省了不斷購買推理卡的資金成本;第二,將推理過程中產生的共性的、用戶共用的內容存儲起來,通過存儲必要推理過程中產生的數據,當後續遇到類似問題的時候直接調用,直接省去了每次遇到類似問題時推理過程,提升了效率,同時也節省了資源。
鄭緯民以清華大學與月之暗面共同研發的Mooncake技術框架為例介紹指出,「透過將不同用戶與Kimi對話的公共內容提煉出來,儲存下來,這不僅減少了每次用戶提問都要重新生成的過程,節省了許多算力卡,也減少了kimi因訪問過大導致的’訪問延遲’或’宕機’等問題。
文丨新浪科技周文猛