Mistral發布Codestral Mamba程式設計模型實現更快、更長的程式碼生成
法國人工智慧新創公司Mistral以其強大的開源人工智慧模型而聞名,今天,該公司在其不斷成長的大型語言模型(LLM) 家族中推出了兩個新產品:一個是基於數學的模型,另一個是程式設計師和開發人員的程式碼生成模型,其基礎是去年底由其他研究人員開發的名為Mamba的新架構。
Mamba 試圖透過簡化注意力機制來提高大多數領先LLM 所使用的Transformer架構的效率。與更常見的基於Transformer的模型不同,基於Mamba 的模型推理時間更快,上下文時間更長。 包括AI21 在內的其他公司和開發者已經發布了基於Mamba 的新人工智慧模型。
現在,Mistral 的Codestral Mamba 7B 採用了這種新架構,即使輸入文字較長,也能提供快速的回應時間。 Codestral Mamba 非常適合程式碼生產力使用案例,尤其是本地編碼專案。
Mistral 對該模型進行了測試,該模型將在Mistral 的la Plateforme API 上免費使用,可處理多達256000 個詞元的輸入,是OpenAI 的GPT-4o 的兩倍。
在基準測試中,Mistral 顯示Codestral Mamba 在HumanEval 測試的表現優於競爭對手開源模型CodeLlama 7B、CodeGemma-1.17B 和DeepSeek。
開發人員可以從GitHub 儲存庫或透過HuggingFace 修改和部署Codestral Mamba。它將採用開源Apache 2.0 授權。
Mistral 聲稱,Codestral 早期版本的效能優於CodeLlama 70B 和DeepSeek Coder 33B 等其他程式碼產生器。
程式碼產生和編碼助理已成為人工智慧模型的廣泛應用,GitHub 的Copilot(由OpenAI 提供支援)、亞馬遜的CodeWhisperer 和Codenium等平台越來越受歡迎。
Mistral 推出的第二個模型是Mathstral 7B,這是一個專為數學推理和科學發現而設計的人工智慧模型。 Mistral 與Numina 計畫共同開發了Mathstral。
Mathstral 的上下文視窗為32K,將採用Apache 2.0 開源授權。 Mistral 表示,模型的效能超過了所有為數學推理設計的模型。它可以在推理計算時間更長的基準測試中取得”明顯更好的結果”。使用者可以原樣使用,也可以對模型進行微調。
“Mathstral 是為特定目的構建模型時實現出色性能/速度權衡的另一個範例,這也是我們在la Plateforme 積極推廣的開發理念,尤其是其新的微調功能,”Mistral 在一篇博文中說。
使用者可以透過Mistral’s la Plataforme 和HuggingFace 進入Mathstral。
Mistral 公司傾向於在開源系統上提供模型,它一直在與OpenAI 和Anthropic 等其他人工智慧開發商展開激烈競爭。最近,該公司獲得了6.4 億美元的B 輪融資,估值接近60 億美元。該公司也獲得了微軟和IBM 等科技巨頭的投資。