富士通發表”Fugaku-LLM” 在超級電腦”富嶽”上訓練的日語增強大語言模型
日本研究團隊利用理化學研究所的超級電腦”Fugaku”發布了具有增強日語能力的大型語言模型–Fugaku-LLM。該團隊由東京工業大學的橫田理夫教授、東北大學的坂口圭介副教授、富士通公司的白畑幸一、理化學研究所的穆罕默德-瓦希卜(Mohamed Wahib)組長、名古屋大學的西口浩二副教授、CyberAgent 公司的佐佐木翔太(Shota Sasaki)和Kotoba Technologies 公司的小島典之(Noriyuki Kojima)領導。
理化學研究所的超級電腦Fugaku
為了在Fugaku 上訓練大型語言模型,研究人員開發了分散式訓練方法,包括將深度學習框架Megatron-DeepSpeed 移植到Fugaku,以優化變形金剛在Fugaku 上的表現。他們加速了Transformers 的密集矩陣乘法庫,並透過結合三種平行化技術優化了Fugaku 的通訊效能,也加速了Tofu 互聯D 上的集體通訊函式庫。
Fugaku-LLM 有130 億個參數,比日本廣泛開發的70 億個參數模型更大。 Fugaku-LLM 增強了日語能力,在日語MT-Bench 中平均得分5.5,是使用日本原始資料訓練的開放模型中最高的。特別是人文和社會科學任務的基準表現達到了9.18 分的驚人高分。
Fugaku-LLM 是在CyberAgent 收集的日語專有資料、英語資料和其他資料的基礎上進行訓練的。 Fugaku-LLM 的源代碼可在GitHub 上獲取,模型可在Hugging Face 上取得。只要使用者遵守許可證,Fugaku-LLM 可用於研究和商業目的。
未來,隨著更多研究人員和工程師參與改進模型及其應用,訓練效率將得到提高,從而實現下一代創新研究和商業應用,例如科學模擬與生成式人工智慧的聯動,以及擁有成千上萬人工智慧的虛擬社區的社會模擬。
研究背景
近年來,大型語言模型(LLM)的發展十分活躍,尤其是在美國。其中,由OpenAI 開發的ChatGPT ( 6 )的迅速普及,對研發、經濟體系和國家安全產生了深遠影響。除美國外,其他國家也在本國投入大量人力和運算資源開發LLM。日本也需要確保用於人工智慧研究的運算資源,以免在這場全球競賽中落後。人們對日本的旗艦超級電腦系統”Fugaku”寄予厚望,因此有必要改善在”Fugaku”上進行大規模分散式培訓的計算環境,以滿足這些期望。
因此,東京工業大學、東北大學、富士通公司、理化學研究所、名古屋大學、CyberAgent 和Kotoba Technologies 啟動了一項關於開發大型語言模型的聯合研究計畫。
各機構/公司的作用
東京工業大學:大型語言模型的整體監督、並行化和通訊加速(透過三種平行化組合優化通訊性能,加速Tofu 互聯D 上的集體通訊)
東北大學收集訓練資料和選擇模型
富士通加速運算和通訊(加速Tofu 互聯D 上的集體通訊、優化管線並行化的效能)以及實施預訓練和訓練後微調
理化學研究所:大規模語言模型的分散式並行化與通訊加速(Tofu 互聯D 上的集體通訊加速)
名古屋大學研究Fugaku-LLM 在3D 生成式人工智慧的應用方法
CyberAgent:提供訓練數據
Kotoba Technologies:將深度學習框架移植到Fugaku
未來發展
這項研究的成果將透過GitHub 和Hugging Face 公開,以便其他研究人員和工程師可以利用這些成果進一步開發大型語言模型。只要使用者遵守許可協議,Fugaku-LLM 可用於研究和商業目的。從2024 年5 月10 日起,Fugaku-LLM 也將透過富士通研究入口網站提供給使用者。
未來,隨著越來越多的研究人員和工程師參與到模型及其應用的改進中來,訓練的效率將得到提高,從而實現下一代創新研究和商業應用,例如科學模擬與生成式人工智慧的聯繫,以及擁有成千上萬人工智慧的虛擬社區的社會模擬。
本研究得到了Fugaku 政策支援提案”利用Fugaku 開發大型語言模型的分散式平行訓練”(提案編號:hp230254)的支持。