DeepSeek多模態Janus-Pro-7B模型發布並開源擊敗OpenAl DALL-E3
深度求索(DeepSeek)創始人梁文鋒深夜發文官宣,DeepSeek剛剛發布並開源了一款名為Janus-Pro-7B的多模態AI模型,可以生成圖像。根據梁文鋒介紹,在GenEval和DPG-Bench基準測試中,Janus-Pro-7B擊敗了OpenAI的DALL-E3和Stable Diffusion。 」
就在今天凌晨,DeepSeek工程師們已經在Hugging Face平台上傳了Janus Pro 7B和1.5B模型。這兩個模型是去年DeepSeek 10月發布的Janus模型升級版。
根據DeepSeek介紹,Janus-Pro是一個新穎的自回歸框架,統一了多模態理解和生成。 Janus-Pro 是基於DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型所建構的。
在多模態理解任務中,Janus-Pro 採用SigLIP-L 作為視覺編碼器,支援384 x 384 像素的影像輸入。而在影像生成任務中,Janus-Pro 使用一個來自特定來源的分詞器,降採樣率為16。

