微軟和NVIDIA共同推出迄今為止訓練的最大且最強的語言模型

2021-10-12 Comments 0 Comment

微軟和英偉達今天宣佈了由DeepSpeed和Megatron驅動的Megatron-Turing自然語言生成模型（MT-NLG），這是迄今為止訓練的最大和最強大的解碼語言模型。 這個模型包括5300億個參數，與現有最大的模型GPT-3相比，參數數量是其3倍。

訓練這樣的大型模型涉及各種挑戰，沿著所有的人工智慧軸線進行了許多創新和突破。例如，通過緊密合作，英偉達和微軟將最先進的GPU加速訓練基礎設施與尖端的分散式學習軟體堆棧相融合，實現了前所未有的訓練效率。

微軟與NVIDIA建立了高品質的自然語言訓練語料庫，其中包含數千億個標記，並共同開發了訓練配方，以提高優化效率和穩定性。

圖片.png

圖片.png

圖片.png

您可以從這裡瞭解更多：

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。