國內科學家團隊發布超大規模AI預訓練模型
北京智源人工智能研究院發布四個超大規模人工智能預訓練模型,統稱為“悟道1.0”,涵蓋中文語言、多模態、認知、蛋白質預測四個領域,是幫助國內企業、機構開發人工智能應用的大型基礎設施。
“悟道1.0”由智源研究院學術副院長、清華大學唐杰教授領銜,帶領來自北京大學、清華大學、中國人民大學、中國科學院等單位的100餘位AI科學家團隊聯合攻關,同時與快手、搜狗、360、阿里、新華社等龍頭企業共同研發工業級示範性應用。
智源研究院院長黃鐵軍教授介紹,近幾年這輪人工智能浪潮的基本特點是“數據+算力+算法=模型”,模型濃縮了訓練數據的內部規律,是實現人工智能應用的載體。近年來人工智能的發展,已經從“大煉模型”逐步邁向了“煉大模型”的階段,通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用,是必然趨勢。
智源研究院2020年10月啟動“悟道”項目,研發規模大(主要體現為參數量)、智商高、具備類人認知能力、統一對多模態數據的理解和建模、滿足各種應用需要的預訓練模型,特別是注重中文語料的採集和訓練。
四大模型:中文、多模態、認知、蛋白質預測
“悟道”模型技術委員會主任、智源研究院學術副院長唐杰教授介紹,“悟道1.0”先期啟動了4個大模型的研發。
以中文為核心的預訓練語言模型“悟道·文源”目前模型參數量達26億,具有識記、理解、檢索、數值計算、多語言等多種能力,並覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務,技術能力已與GPT-3齊平。
其目標是構建完成全球規模最大的中文預訓練語言模型,在文本分類、情感分析、自然語言推斷、閱讀理解等多個任務上超越人類平均水平,探索具有通用能力的自然語言理解技術,並進行腦啟發的語言模型研究。
超大規模多模態預訓練模型“悟道·文瀾”,目前模型參數量達10億,基於從公開來源收集到的5000萬個圖文對上進行訓練,是首個公開的中文通用圖文多模態預訓練模型。
其目標是突破基於圖、文和視頻相結合的多模態數據的預訓練理論難題,並最終生成產業級中文圖文預訓練模型和應用,並在多個評測應用上超過國際最高性能。
該模型已對外開放API,並有兩款小應用,可以為用戶上傳的照片配文,或搭配最合拍的音樂。
面向認知的超大規模新型預訓練模型“悟道·文匯”,目前參數規模達113億,在AI作詩、AI作圖、AI製作視頻、圖文生成、圖文檢索、複雜推理等多項任務中的表現已經接近突破圖靈測試,可以應用在電商行業自動撰寫商品文案等場景。
其目標是研發出千億至萬億級參數量的、更通用、且性能超越國際水平的預訓練模型,搭建預訓練模型體系,從認知角度研究通用人工智能,發展模型基於邏輯、意識和推理的認知能力。
超大規模蛋白質序列預測預訓練模型“悟道·文溯”,已在蛋白質方面完成基於100GB UniParc數據庫訓練的BERT模型,在基因方面完成基於5-10萬規模的人外周血免疫細胞(細胞類型25- 30種)和1萬耐藥菌的數據訓練,同時搭建訓練軟件框架並驗證其可擴展性。
其目標是以基因領域認知圖譜為指導,研發出十億參數規模、可以處理超長蛋白質序列的超大規模預訓練模型,在基本性能、可解釋性和魯棒性等多個方面達到世界領先水平。
WuDaoCorpora:全球最大中文語料數據庫
在科研方面,“悟道1.0”取得了多項國際領先的AI技術突破,與現有同類算法及模型相比提升了訓練速度,提高了識別準確度和效率。不過更值得一提的是該項目建設並開放了全球最大中文語料數據庫WuDaoCorpora。
WuDaoCorpora數據規模達2TB,超出之前全球最大的中文語料庫CLUECorpus2020十倍以上,同時著重去除了數據中包含的隱私信息,防止了隱私洩露。
WuDaoCorpora的數據來源豐富,包括新聞諮詢、評論、百科、論壇、博客、學術論文等,使得該數據集能夠適用於不同種類的自然語言處理任務,訓練出的模型泛化性更強。
此外,WuDaoCorpora數據標籤的完備性較高,語料中包含醫療、法律、金融等領域標籤,可以依據需求抽取某個特定領域的數據,用於訓練該領域的模型,也可以用於對大模型進行微調,構建某一特定領域的應用。
該數據集不僅為“悟道”項目提供了數據支撐,還可被用於中文自然語言處理領域的多種任務模型訓練,包括文本生成模型、詞嵌入模型、問答對話模型等,對於國際自然語言處理領域的發展將有著積極的促進作用。