DeepSeek深夜發布多模態大模型影像性能跑分力壓OpenAI競品
就在華爾街週一緊張評估“DeepSeek風暴”之際,這家中國公司再次甩出新品:在圖像生成基準測試中超越OpenAI“文生圖”模型DALL-E 3的多模態大模型Janus-Pro,同樣也是開源的。

除夕凌晨鐘聲敲響前不久,DeepSeek工程師們在「抱抱臉」平台上傳了Janus Pro 7B和1.5B模型。這倆模型是去年10月發布的Janus模型的升級。

15億和70億的參數量,意味著這兩個模型具備在消費級電腦上本地運行的潛力。與R1一樣,Janus Pro採用MIT許可證,在商用方面沒有限制。
根據DeepSeek介紹,Janus-Pro是一個新穎的自回歸框架,統一了多模態理解和生成。透過將視覺編碼分離為「理解」和「生成」兩條路徑,同時仍採用單一的Transformer架構進行處理,解決了以往方法的局限性。這種分離不僅緩解了視覺編碼器在理解和生成中的角色衝突,也提升了框架的靈活性。

從報告給出的「跑分」數據來看,在部分文生圖基準測試中,Janus-Pro 70億參數模型表現優於OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。
(來源:技術報告)
雖然DALL-E 3是OpenAI在2023年發布的“舊模型”,同時Janus Pro目前只能分析和產生規格較小的圖像(384 x 384)。 DeepSeek在如此緊湊的模型尺寸中依然展現了令人印象深刻的性能。
技術報告顯示,在視覺生成方面,Janus-Pro透過添加7,200萬張高品質合成影像,使得在統一預訓練階段真實資料與合成資料的比例達到1:1,實現「更具視覺吸引力和穩定性的圖像輸出」。在多模態理解的訓練資料方面,新模型參考了DeepSeek VL2並增加了大約9000萬個樣本。
作為一個多模態模型,Janus-Pro不僅可以“文生圖”,同樣也能對圖片進行描述,識別地標景點(例如杭州的西湖),識別圖像中的文字,並能對圖片中的知識(例如下圖中的「貓和老鼠」蛋糕)進行介紹。


公司也在報告中,給出了更多圖像生成的案例。
