北大發起復現Sora:框架已搭袁粒、田永鴻領銜AnimateDiff大神響應
北大團隊發起了一項Sora復現計畫—— Open Sora。架構、實作細節已出:初始團隊共13人:帶隊的是北大資訊工程學院助理教授、博導袁粒與北大電腦學院教授、博導田永鴻等人。
為什麼發起這項計劃?
因為資源有限,團隊希望集結開源社群的力量,盡可能完成復現。
消息一出,就有人北大校友兼AnimateDiff貢獻者等人立即回應:
還有人表示可以提供高品質資料集:
所以,「國產版Sora」的新挑戰者,就這樣來了?
計劃細節,已完成3個初步功能
首先,來看目前公佈的技術細節──即團隊打算如何復現Sora。
在整體框架上,它將由三個部分組成:
Video VQ-VAE
Denoising Diffusion Transformer(去雜訊擴散型Transformer)
Condition Encoder(條件編碼器)
這和Sora技術報告的內容基本上差不多。
對於Sora影片的可變長寬比,團隊透過參考上海AI Lab剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即「升級版DiT」)實施動態遮罩策略,從而在並行批量訓練的同時保持靈活的長寬比。
具體來說, 我們將高分辨率視頻在保持長寬比的同時下採樣至最長邊為256像素, 然後在右側和底部用零填充至一致的256×256分辨率。這樣便於videovae以批量編碼視頻, 以及便於擴散模型使用注意力掩碼對批量潛變量進行去噪。
對於可變分辨率,團隊則表示在推理過程中,儘管在固定的256×256分辨率上進行訓練,,但使用位置插值來實現可變分辨率採樣。
具體而言:
我們將可變解析度雜訊潛變數的位置索引從[0, seq_length-1]下調到[0, 255],以使其與預訓練範圍對齊。這種調整使得基於注意力的擴散模型能夠處理更高解析度的序列。對於可變時長,則使用VideoGPT中的Video VQ-VAE,,將視訊壓縮至潛在空間,並支援此功能。
同時,也要在擴展空間位置內插至時空維度,實現可變時長影片的處理。
在此,首頁也先給了兩個demo,分別是10s視頻重建和18s重建,分辨率分別為256×256和196×196:
這三個功能都已經初步實現。
相關的訓練代碼也已經在對應的倉庫上上線:
成員介紹,目前的訓練是在8個A100-80G上進行的(明顯還遠遠不夠),輸入大小為8幀128 128,大概需要1週時間才能產生類似ucf(一個視訊資料集)的效果。
而從目前已經列出的9項to do事項來看,除了可變長寬比、可變解析度和可變時長,動態遮罩輸入、在embeddings上新增類別條件這兩個任務也已完成。
未來要做的包括:
採樣腳本
新增位置插值
在更高解析度上微調Video-VQVAE
合併SiT
納入更多條件
以及最重要的:使用更多數據和更多GPU進行訓練
袁粒、田永鴻領銜
嚴格來說,Open Sora計畫是北大-兔展AIGC聯合實驗室共同發起的。
領軍之一袁粒,為北大資訊工程學院助理教授、博導,去年獲得福布斯30歲以下亞洲傑出人物名單。
他分別在中國科學技術大學和新加坡國立大學獲得本科和博士學位。
研究方向為深度視覺神經網路設計與多模態機器學習,代表性一作論文之一T2T-ViT被引次數1000+。
領銜者之二田永鴻,北京大學博雅特聘教授,博士生導師,IEEE、ACM等fellow,兼任鵬城實驗室(深圳)人工智慧研究中心副主任,曾任中科院計算所助理研究員、美國明尼蘇達大學訪問教授。
從目前公佈的團隊名單來看,其餘成員大部分為碩士生。
包括袁粒課題組的林彬,他曾多次以一作或共同一作身份參與了“北大版多模態MoE模型”MoE-LLaVA、Video-LLaVA和多模態對齊框架LanguageBind(入選ICLR 2024)等工作。
兔展這邊,參與者包括兔展智慧創辦人、董事長兼CEO董少靈(他也是北大校友)。
完整名單:
誰能率先發布中文版Sora?
比起ChatGPT,引爆文生視訊賽道的Sora研發難度顯然更大。
誰能奪得Sora中文版的先發權,目前留給大眾的是一個大大的問號。
在這之中,傳聞最大的是位元組。
今年2月初,張楠辭去抖音集團CEO一職,轉而負責剪映,就引發了外界猜測。
很快,一款叫做「Boximator」的影片產生模型浮出水面。
它基於PixelDance和ModelScope兩個之前的成果上完成訓練。
不過,很快位元組就闢謠這不是「字節版sora」:
它的效果離Sora還有很大差距,暫時不具備落地條件,並且至少還需2-3個月才能上線demo給大家測試。
但,風聲並未就此平息。
去年11月,位元組剪映悄悄上線了一個AI繪畫工具“Dreamina”,大家的評價還不錯。
現在,又有消息指出:
Dreamina即將上線類似sora的影片產生功能(目前在內測)。
不知道,這次是不是位元組亮出的大招?
Open Sora專案首頁: