騰訊混元大模型殺入文生影片讓用戶「用起來」是關鍵
昨日,騰訊混元大模型正式上線影片產生能力,這是繼文生文、文生圖、3D生成之後,混幣大模型的最新業務進展。同時,騰訊開源此影片產生大模型,參數量130億,是目前最大的視訊開源模型。
「用戶只需要輸入一段描述,即可產生視頻,」騰訊混元相關負責人透露,目前的生成視頻支援中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前模型已上線騰訊元寶APP,用戶可在AI應用中的「AI視訊」板塊申請試用。企業用戶透過騰訊雲端提供服務接入,目前API同步開放內測申請。
自從OpenAI 的Sora 基於DiT(Diffusion Transformer)架構,把長視頻生成的效果提高到了前所未有的水平,全球AI廠商加速趕來,掀起視頻生成熱潮。
2024年接近尾聲,今年以來大模型領域最熱鬧的細分賽道要數影片生成。字節豆包正在推出文生影片內測,Minmax,快手,商湯等也先後推出了文生影片。由清華大學聯合生數科技共同研發Vidu 則宣稱是中國首個長時長、高一致性、高動態性視訊大模型。
不過,做好文生影片這件事並不簡單,這點從OpenAI在今年初發布了Sora之後,仍未正式對外開放便可見一斑。
這主要是因為目前的視訊生成技術產出的結果與用戶期望之間仍存在較大差距,這些模型在理解和應用物理規則方面表現不足,並且在生成過程中缺乏有效的可控性。
根據騰訊的說法,混元文生影片大模型主要的優勢能力在於,可以實現超寫實畫質、生成高度符合提示字的影片畫面,畫面流暢不易變形。
「例如,在衝浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以產生非常流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本上符合物理規律,在鏡面或照鏡子場景中,可以做到鏡面內外動作一致。
從技術角度來看,據騰訊混元相關負責人介紹,混元大模型是基於跟Sora類似的DiT架構,在架構設計上進行了多處升級。
混元視訊生成模型適配了新一代文字編碼器提升語意遵循,其具備強大的語意跟隨能力,更能應對多個主體描繪,實現更細緻的指令和畫面呈現;採用統一的全注意力機制,使得每幀視訊的銜接更為流暢,並能實現主體一致的多視角鏡頭切換;透過先進的影像視訊混合VAE(3D 變分編碼器),讓模型在細節表現有明顯提升,特別是小人臉、高速鏡頭等場景。
例如寫下這麼一段提示詞,一位中國美女穿著漢服,頭髮飄揚,背景是倫敦,然後鏡頭切換到特寫鏡頭:
不過在視訊生成領域,快手、抖音、智譜科技、生數科技等國內廠商均已推出相應的產品,甚至開啟了商業化,騰訊混元此番的節奏並不算快。
對此,騰訊混元相關負責人在接受《科創板日報》記者採訪時回應稱,當下的視頻生成技術,從可用度而言,還未到大規模商用的階段,還有很多技術難度需要克服,混元大模型文生視訊功能也不急於一時,當下階段更重要的是開源讓更多人用起來,使模型的飛輪能快速轉動帶動優化模型本身。
在落地應用程式上,上述負責人表示,混元大模型產生的影片可用於工業級商業場景,例如廣告宣傳、動畫製作、創意影片生成等場景。對於未來的商業化,騰訊暫時還沒有詳細的規劃出來。
目前,騰訊宣布開源此影片產生大型模型已在Hugging Face平台及Github上發布,包含模型權重、推理程式碼、模型演算法等完整模型,可供企業與個人開發者免費使用及開發生態外掛程式。基於騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用於推理,並可基於騰訊混元系列打造專屬應用及服務。