微軟發表Phi-4 多模態與Phi-4 迷你小語言模型
2024 年12 月,微軟推出了Phi-4,它是一種小型語言模型(SLM),在同類產品中具有最先進的效能。 今天,微軟將透過兩個新車型擴展Phi-4 系列: Phi-4-multimodal和Phi-4-mini。新的Phi-4 多模態模型可同時支援語音、視覺和文本,而Phi-4-mini 則專注於基於文字的任務。
Phi-4-multimodal是一個5.6B參數模型,也是微軟首個多模態語言模型,它將語音、視覺和文字處理整合到一個統一的架構中。 如下表所示,與Google的Gemini 2.0 Flash 和Gemini 2.0 Flash Lite 等其他現有最先進的全方位模型相比,Phi-4-multimodal 在多個基準測試中取得了更好的性能。

在語音相關任務中,Phi-4-multimodal 在自動語音辨識(ASR)和語音翻譯(ST)的表現均優於WhisperV3 和SeamlessM4T-v2-Large 等專業語音模型,該模型以6.14% 的驚人單字錯誤率在Hugging Face OpenASR 排行榜上名列前茅。

在視覺相關任務中,Phi-4-multimodal 在數學和科學推理方面表現出色。 在常見的多模態能力(如文件和圖表理解、OCR 和視覺科學推理)方面,這種新模型可與Gemini-2-Flash-lite-preview 和Claude-3.5-Sonnet 等流行模型相媲美,甚至超過它們。
Phi-4-mini 是一個3.8B 參數模型,在基於文字的任務(包括推理、數學、編碼、指令遵循和函數調用)中,其性能優於幾種流行的大型LLM。
為了確保這些新模型的安全性,微軟與內部和外部安全專家一起進行了測試、 採用Microsoft AI 紅隊(AIRT) 制定的策略。 Phi-4-mini 和Phi-4-multimodal 型號在使用ONNX Runtime 進行進一步優化以實現跨平台可用性後,均可在裝置上部署,使其適用於低成本、低延遲的應用場景。
現在,Phi-4-multimodal 和Phi-4-mini 模型均可在Azure AI Foundry、Hugging Face 和NVIDIA API Catalog 中供開發人員使用。 開發人員可查閱技術文件,以了解推薦模型的用途及其限制。
這些新的Phi-4 模型代表了高效人工智慧的重大進步,為各種人工智慧應用帶來了強大的多模態和基於文字的功能。