國產中文大語言模型“天河天元”發布由天河超算訓練
5月18日,2023第七屆世界智能大會於國家會展中心(天津)正式開始。而天河新一代超級計算機是中國新一代百億億次超級計算機,也在此次展會迎來首次亮相。同時,為充分發揮超算在算力方面的優勢,推動國產異構超級計算機平台在AI應用開發和服務領域中的應用。
國家超算天津中心在大會上發布了“天河E級智能計算開放創新平台”和“天河天元大模型”。
據介紹,中文大語言模型的數據集非常稀缺。國家超算天津中心蒐集整理了網頁數據、各種開源訓練數據、中文小說數據、古文數據、百科數據、新聞數據,以及專業領域的中醫、醫藥、問診、法律等多種數據集。
訓練數據集總token數達到350B,最終訓練打造出了自己的中文語言大模型——天河天元大模型。
據悉,“天河E級智能計算開放創新平台”將帶來突破百億億次的跨模態的超級計算算力,支撐傳統的科學工程計算,並服務智能混合計算,打造全方位的算力賦能創新和數字經濟高質量發展載體。