Mistral 發表首款多模態模型Pixtral 12B
法國人工智慧新創公司Mistral發布了首款可處理圖像和文字的模型。模型名為Pixtral 12B,擁有120 億個參數,大小約24GB。參數大致相當於模型解決問題的能力,參數越多的模型通常比參數越少的模型表現越好。
新模型建立在Mistral 的文字模型Nemo 12B 上,可以回答關於任意數量、任意大小的圖片的問題,這些圖片可以是圖片URL,也可以是使用二進位文字編碼方案base64 編碼的圖片。與Anthropic 的Claude 系列和OpenAI 的GPT-4o 等其他多模態模型類似,Pixtral 12B 至少在理論上可以完成為圖片添加標題和計算照片中物體數量等任務。
Pixtral 12B 可透過GitHub和人工智慧與機器學習開發平台Hugging Face上的torrent 連結下載、微調,並根據Mistral 的標準許可使用。
遺憾的是,在本文發表時,還沒有任何可用的網路演示。 Mistral 開發者關係主管Sophia Yang 在X 上發表文章稱, Pixtral 12B 很快就會在Mistral 的聊天機器人和API 服務平台Le Chat 和Le Platforme 上進行測試。
目前還不清楚Mistral 可能使用了哪些影像資料來開發Pixtral 12B。
大多數生成式人工智慧模型,包括Mistral 的其他模型,都是在網路上的大量公共資料上訓練出來的,而這些資料通常都是受版權保護的。一些模型供應商辯稱,”合理使用”權使他們有權採集任何公共數據,但許多版權所有者不同意,並已對OpenAI 和Midjourney 等大型供應商提起訴訟,以阻止這種做法。
Pixtral 120 億美元的融資是在Mistral 獲得由General Catalyst 領投的6.45 億美元融資之後進行的,該輪融資使該公司估值達到60 億美元。剛成立一年多的Mistral 被人工智慧界的許多人視為歐洲對OpenAI 的回應。迄今為止,這家年輕公司的策略包括發布免費的”開放”模型,對這些模型的託管版本收費,以及為企業客戶提供諮詢服務。