生數科技聯合清華發布影片大模型Vidu 全面對標Sora

2024-04-28 Comments 0 Comment

在中關村論壇未來人工智慧先鋒論壇上，生數科技聯合清華大學發佈長時長、高一致性、高動態性影片大模型－Vidu。模型採用團隊原創的Diffusion與Transformer融合的架構U-ViT，支援一鍵生成長達16秒、解析度高達1080P的高畫質影片內容。

據介紹，Vidu不僅能模擬真實物理世界，還擁有豐富想像力，具備多鏡頭生成、時空一致性高等特質。 Vidu是自Sora發布之後全球率先取得重大突破的視頻大模型，性能全面對標國際頂尖水平，並在加速迭代提升中。與Sora一致，Vidu能夠根據提供的文字描述直接產生長達16秒的高品質影片。

值得一提的是，短片中的片段都是從頭到尾連續生成，沒有明顯的插幀現象，從這種「一鏡到底」的表現能夠推測出，Vidu採用的是「一步到位」的生成方式，與Sora一樣，文字到視訊的轉換是直接且連續的，在底層演算法實作上是基於單一模型完全端對端生成，不涉及中間的插幀和其他多步驟的處理。

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。