超大規模智能模型“悟道2.0”發布參數規模達GPT-3的10倍
在1日召開的2021北京智源大會上,北京智源人工智能研究院發布了新版超大規模智能模型“悟道2.0”,這是在今年3月20日發布的“悟道1.0”基礎上更新迭代而來,具備大規模、高精度、高效率的特點。
“悟道”模型旨在打造數據和知識雙輪驅動的認知智能,讓機器像人一樣思考,實現“超越圖靈測試的機器認知能力”。“悟道”團隊在大規模預訓練模型研發上做了很多基礎性工作,形成了自主的超大規模智能模型技術創新體系,擁有理論、工具、模型構建和測評的完整鏈條。
“悟道2.0”模型的參數規模達到1.75萬億,是GPT-3的10倍,打破了之前由Google Switch Transformer預訓練模型創造的1.6萬億參數記錄,是目前中國首個、全球最大的萬億級模型。
Google萬億模型的核⼼技術MoE(Mixture of Experts)與其分佈式訓練框架和其定制硬件強綁定。“悟道”團隊研究並開源的FastMoE是首個支持PyTorch框架的MoE系統,具有簡單易用、靈活、高性能等特點,並且支持大規模並行訓練。新一代FastMoE,支持Switch、GShard等複雜均衡策略,支持不同專家不同模型,是實現“萬億模型”的關鍵技術。
“悟道2.0”模型在中英雙語共4.9T的高質量大規模清洗數據上進行訓練。訓練數據包含WuDaoCorpora中的1.2TB中文文本數據、2.5TB中文圖文數據,以及Pile數據集的1.2TB英文文本數據。
據介紹,“悟道2.0”在世界公認的9項Benchmark基準測試任務上取得較好的成績。
新版模型的另一突破在於減少了算力資源、訓練時間等方面的巨大消耗。為提升大規模預訓練模型的產業普適性和易用性,悟道團隊搭建高效預訓練框架,在編碼、模型、訓練、調參和推理等方面效率大幅提升。
(1)高效編碼:研發了最高效、最抗噪的中文預訓練語言模型編碼,解決生僻字等問題;
(2)高效模型:構建了世界首個純非歐空間模型,只需要一半的參數量即可達到近似歐式模型的效果;
(3)高效訓練:世界首創大規模預訓練模型融合框架,形成高效訓練新模式,訓練時間縮短27.3%,速度提升37.5%;
(4)高效微調:世界首創多類別Prompt微調,只需訓練0.001%參數即可實現下游任務適配;
(5)高效推理:世界首創低資源大模型推理系統,單機單卡GPU即可以進行千億參數規模的模型推理。
“悟道”模型在3月首發時已經預告要和一些龍頭企業共同研發應用成果,本次發佈時就宣布了與新華社、美團、小米、快手、搜狗、360、寒武紀、第四範式、好未來、智譜華章等22家合作企業正式簽約。同時啟動“悟道之巔”模型應用大賽,鼓勵開發者利用該模型開發應用案例。