超大規模智能模型“悟道2.0”發布參數規模達GPT-3的10倍

2021-06-01 Comments 0 Comment

在1日召開的2021北京智源大會上，北京智源人工智能研究院發布了新版超大規模智能模型“悟道2.0”，這是在今年3月20日發布的“悟道1.0”基礎上更新迭代而來，具備大規模、高精度、高效率的特點。

“悟道”模型旨在打造數據和知識雙輪驅動的認知智能，讓機器像人一樣思考，實現“超越圖靈測試的機器認知能力”。“悟道”團隊在大規模預訓練模型研發上做了很多基礎性工作，形成了自主的超大規模智能模型技術創新體系，擁有理論、工具、模型構建和測評的完整鏈條。

“悟道2.0”模型的參數規模達到1.75萬億，是GPT-3的10倍，打破了之前由Google Switch Transformer預訓練模型創造的1.6萬億參數記錄，是目前中國首個、全球最大的萬億級模型。

Google萬億模型的核⼼技術MoE（Mixture of Experts）與其分佈式訓練框架和其定制硬件強綁定。“悟道”團隊研究並開源的FastMoE是首個支持PyTorch框架的MoE系統，具有簡單易用、靈活、高性能等特點，並且支持大規模並行訓練。新一代FastMoE，支持Switch、GShard等複雜均衡策略，支持不同專家不同模型，是實現“萬億模型”的關鍵技術。

“悟道2.0”模型在中英雙語共4.9T的高質量大規模清洗數據上進行訓練。訓練數據包含WuDaoCorpora中的1.2TB中文文本數據、2.5TB中文圖文數據，以及Pile數據集的1.2TB英文文本數據。

據介紹，“悟道2.0”在世界公認的9項Benchmark基準測試任務上取得較好的成績。

新版模型的另一突破在於減少了算力資源、訓練時間等方面的巨大消耗。為提升大規模預訓練模型的產業普適性和易用性，悟道團隊搭建高效預訓練框架，在編碼、模型、訓練、調參和推理等方面效率大幅提升。

（1）高效編碼：研發了最高效、最抗噪的中文預訓練語言模型編碼，解決生僻字等問題；

（2）高效模型：構建了世界首個純非歐空間模型，只需要一半的參數量即可達到近似歐式模型的效果；

（3）高效訓練：世界首創大規模預訓練模型融合框架，形成高效訓練新模式，訓練時間縮短27.3%，速度提升37.5%；

（4）高效微調：世界首創多類別Prompt微調，只需訓練0.001%參數即可實現下游任務適配；

（5）高效推理：世界首創低資源大模型推理系統，單機單卡GPU即可以進行千億參數規模的模型推理。

“悟道”模型在3月首發時已經預告要和一些龍頭企業共同研發應用成果，本次發佈時就宣布了與新華社、美團、小米、快手、搜狗、360、寒武紀、第四範式、好未來、智譜華章等22家合作企業正式簽約。同時啟動“悟道之巔”模型應用大賽，鼓勵開發者利用該模型開發應用案例。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

WONGCW 網誌

記錄生活經驗與點滴

超大規模智能模型“悟道2.0”發布參數規模達GPT-3的10倍

2021-06-01 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆