百川智能推出Baichuan2-192K大機型一次可輸入35萬個漢字
百川智能發表Baichuan2-192K大模型。其上下文窗口長度高達192K,能夠處理約35萬個漢字,是目前支援長上下文窗口最優秀大模型Claude2(支援100K上下文窗口,實測約8萬字)的4.4倍,更是GPT-4(支援32K上下文窗口,實測約2.5萬字)的14倍。
據悉,今年9月25日,百川智慧開放了Baichuan2的API接口,正式進軍企業級市場,開啟商業化進程。此次Baichuan2-192K將以API調用和私有化部署的方式提供給企業用戶,目前百川智能已經啟動Baichuan2-192K的API內測,開放給法律、媒體、金融等行業的核心合作夥伴。
上下文窗口長度是大模型的核心技術之一,透過更大的上下文窗口,模型能夠結合更多上下文內容來獲得更豐富的語義訊息,更好的捕捉上下文的相關性、消除歧義,進而更加準確、流暢的生成內容,提升模型能力。
百川智能称,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。
此外,LongEval的評測結果顯示,在視窗長度超過100K後Baichuan2-192K依然能夠保持非常強勁的效能,而其他開源或商用模式在視窗增長後效果都出現了近乎直線下降的情況。
本次百川發布的Baichuan2-192K透過演算法和工程的極致優化,實現了視窗長度和模型效能之間的平衡,做到了視窗長度和模型效能的同步提升。
在演算法方面,百川智能提出了一種針對RoPE和ALiBi動態位置編碼的外推方案,該方案能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態內插,在保證分辨率的同時增強了模型對長序列依賴的建模能力。在長文本困惑度標準評測資料PG-19上,當視窗長度擴大,Baichuan2-192K的序列建模能力持續增強。
工程方面,在自主開發的分散式訓練架構基礎上,百川智慧整合目前市場上所有先進的最佳化技術,包括張量並行、流水並行、序列並行、重計算以及Offload功能等,獨創了一套全面的4D並行分散式方案。此方案能夠根據模型特定的負載情況,自動尋找最適合的分散式策略,大幅降低了長視窗訓練和推理過程中的顯存佔用。
百川智能在演算法和工程上針對長上下文視窗的創新,不僅是大模型技術層面的突破,對學術領域同樣有著重要意義。Baichuan2-192K驗證了長上下文視窗的可行性,為大模型效能提升開拓出了新的科研路徑。
Baichuan2-192K現已正式開啟內測,以API調用的方式開放給百川智能的核心合作夥伴,已與財經類媒體及律師事務所等機構達成了合作,將Baichuan2-192K全球領先的長上下文能力應用到了傳媒、金融、法律等具體場景當中,不久後將全面開放。
值得注意的是,Baichuan2-192K能夠一次處理和分析數百頁的材料,對於長篇文檔關鍵資訊提取與分析,長文檔摘要、長文檔審核、長篇文章或報告編寫、複雜編程輔助等真實場景都有助力作用。
據介紹,它可以幫助基金經理總結和解釋財務報表,分析公司的風險和機會;幫助律師識別多個法律文件中的風險,審核合約和法律文件;幫助技術人員閱讀數百頁的開發文檔,並回答技術問題;也能幫助科員人員快速瀏覽大量論文,總結最新的前沿進展。