32K上下文,Mistral 7B v0.2基模型突然開源了
剛剛,Mistral AI 的模型又更新了。這次開源一如既往的“突然”,是在一個叫做Cerebral Valley 的黑客鬆活動上公佈的。PPT 一翻頁,全場都舉起了手機拍照:
這次開源的Mistral 7B v0.2 Base Model ,是Mistral-7B-Instruct-v0.2 背後的原始預訓練模型,後者屬於該公司的「Mistral Tiny」系列。
此次更新主要包括三個面向:
將8K 上下文提到了32K;
Rope Theta = 1e6;
取消滑動視窗。
下載連結:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar…
更新之後的效能比較是這樣的:
場外觀眾迅速跟進。有人評論說:“Mistral 7B 已經是同尺寸級別中最好的模型,這次改進是一個巨大的進步。 我將盡快在這個模型上重新訓練當前的許多微調。”
Mistral AI 的第一個7B 模型發佈於2023 年9 月,在多個基準測試中實現了優於Llama 2 13B 的好成績,讓Mistral AI 一下子就打出了知名度。
這也導致目前許多開源大模型都已不再對標Llama 2,而是將Mistral AI 旗下的各系列模型作為直接競爭對手。
而Mistral 7B v0.2 Base Model 對應的指令調優版本Mistral-7B-Instruct-v0.2 在2023 年12 月就已開放測試,據官方博客介紹,該模型僅適用於英語,在MT-Bench 上能夠獲得7.6 分的成績,遜於GPT-3.5。
在此次開放基礎模型之後,開發者就可以根據自己的需求對這個「目前最好的7B 模型」進行微調了。
不過,7B 模型只能算是Mistral AI 眾多驚艷成果中的一項。這家公司的長遠目標是對標OpenAI。
上個月底,Mistral AI 正式發布了「旗艦」大模型Mistral Large。與先前的一系列模型不同,此版本表現更強,體積更大,直接對標OpenAI 的GPT-4。隨著Mistral Large 上線,Mistral AI 推出了名為Le Chat 的聊天助手,也實現了對標ChatGPT。
而新模型的發布,也伴隨著公司大方向的轉型。人們發現, Mistral Large 並不是一個開源大模型—— 有跑分、 API 和應用,就是不像往常一樣有GitHub 或是下載連結。
與Mistral Large 發布同時發生的,是Mistral AI 與微軟達成了長期合作的協議,不僅會將Mistral Large 引入Azure,還收穫了微軟1600 萬美元的投資。
Mistral AI 對路透社表示,作為交易的一部分,微軟將持有該公司少數股權,但未透露細節。未來,二者的合作主要集中在三個核心領域:
超算基礎設施:微軟將透過Azure AI 超級運算基礎設施支援Mistral AI ,為Mistral AI 旗艦模型的AI 訓練和推理工作負載提供一流的效能和規模;
行銷:微軟和Mistral AI 將透過Azure AI Studio 和Azure 機器學習模型目錄中的模型即服務(MaaS)向客戶提供Mistral AI 的高級模型。除OpenAI 模型外,模型目錄還提供了多種開源和商業模型。
人工智慧研發:微軟和Mistral AI 將探索為特定客戶訓練特定目的模型的合作。
當被問及公司是否正在改變其開源商業模式時,Mistral AI 聯合創始人Arthur Mensch 在採訪中表示:「我們從開源模式開始,任何人都可以免費部署,因為這是廣泛分發它們並創造需求的一種方式。但從一開始,我們就提供了一種具有優化模型的商業模式,這讓使該公司能夠為模型開發所需的昂貴研究提供資金。”
參考連結:https://twitter.com/MistralAILabs/status/1771670765521281370
首屆中國具身智能大會(CEAI 2024)即將於2024 年3 月30 日至31 日在上海徐匯西岸美高梅酒店舉行。
本次大會由中國人工智慧學會(CAAI)主辦,CAAI 具身智慧專委會(籌)、同濟大學、中國科學院計算技術研究所、上海交通大學、中國經濟資訊社上海總部聯合承辦,全球大學人工智慧學術聯盟協辦,機器之心獨家AI 媒體合作。
盛會將為具身智慧領域的學術與產業界搭建一個交流合作的頂級平台,以廣泛促進學術分享與交流、產業合作與互動,推動產學研聯動發展,提升我國具身智能技術的研究與應用水平。