生數科技聯合清華發布影片大模型Vidu 全面對標Sora
在中關村論壇未來人工智慧先鋒論壇上,生數科技聯合清華大學發佈長時長、高一致性、高動態性影片大模型-Vidu。模型採用團隊原創的Diffusion與Transformer融合的架構U-ViT,支援一鍵生成長達16秒、解析度高達1080P的高畫質影片內容。
據介紹,Vidu不僅能模擬真實物理世界,還擁有豐富想像力,具備多鏡頭生成、時空一致性高等特質。 Vidu是自Sora發布之後全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,並在加速迭代提升中。與Sora一致,Vidu能夠根據提供的文字描述直接產生長達16秒的高品質影片。
值得一提的是,短片中的片段都是從頭到尾連續生成,沒有明顯的插幀現象,從這種「一鏡到底」的表現能夠推測出,Vidu採用的是「一步到位」的生成方式,與Sora一樣,文字到視訊的轉換是直接且連續的,在底層演算法實作上是基於單一模型完全端對端生成,不涉及中間的插幀和其他多步驟的處理。