微軟開源影片Tokenizer新SOTA 顯著優於Cosmos Tokenizer
Sora、Genie等模型會都用到的Tokenizer,微軟下手了——開源了一套全能的Video Tokenizer,名為VidTok Sora等視頻生成模型工作中,都會利用Tokenizer將原始的高維度視頻數據(如圖像和視訊影格)轉換為更為緊湊的視覺Token,再以視覺Token為目標訓練產生模型。而最新的VidTok,在連續與離散、不同壓縮率等多種設定下,各項指標均顯著優於SOTA模型。
以下是涵蓋PSNR、SSIM、FVD、LPIPS指標的效能比較雷達圖,面積越大表示效能越好。
從圖中可以看出對於離散Tokenizer,VidTok顯著優於英偉達Cosmos Tokenizer;對於連續Tokenizer,VidTok也比Open-Sora、CogVideoX有更高的效能。
這項研究由微軟亞研院、上海交通大學、北京大學的研究人員共同完成。
目前,VidTok程式碼不僅開源了,還支援用戶在自訂資料集上的微調,為研究者和開發者提供了一個高效能、易用的工具平台。
效能全面領先,適用各種場景
近年來,視訊生成以及基於此的世界模型已經成為人工智慧領域的熱門研究方向,這兩者的核心在於對視訊內容的高效建模。
影片中蘊含了豐富的視覺訊息,不僅能提供真實的視覺體驗,更能作為具身場景中模型理解世界的中間媒介。
然而,由於視訊像素級表示資訊高度冗餘,如何透過Tokenizer對視訊資料進行高效壓縮和表示成為關鍵課題。
當下許多工作如Sora,Genie等都會透過Tokenizer將原始的高維度視訊資料(如影像和視訊畫面)轉換為更為緊湊的視覺Token,再以視覺Token為目標訓練產生模型。
可以說,視覺Token的表示能力對於最終的效果至關重要,甚至決定了模型能力的上限。
Tokenizer的主要作用是將高維度的原始資料轉換為隱空間中高效率的壓縮表示,使得資訊的產生和處理可以在該隱空間中進行。上圖展示了一個影片的Token化過程,透過轉換為Token建模,能夠有效降低模型訓練和推理時的計算需求。
根據不同的使用需求,影片Tokenizer通常有以下分類:
- 連續型和離散型。根據隱空間的數值分佈,Tokenizer可分為連續型和離散型,分別適用於從連續分佈中採樣的模型(如擴散模型等)和從離散分佈中採樣的模型(如語言模型等)。
- 因果型和非因果型。因果結構使得模型只依賴歷史幀來對當前幀進行Tokenization,這與真實世界系統的因果性質保持一致。非因果模型則可以同時根據歷史幀和未來幀對當前幀進行Tokenization,通常具有更優的重建品質。
- 不同的壓縮率模型。 Sora等眾多工作採用如4x8x8的視訊壓縮率(時間壓縮4倍、空間壓縮8倍),實現更高的視訊壓縮率而維持高品質的視訊重建是目前的研究趨勢。
目前業界領先的視訊模型多為閉源狀態,而開源的視訊Tokenizer大多受限於單一的模型設定或欠佳的重建質量,導致可用性較差。
由此,來自微軟亞研院、上海交通大學和北京大學的研究人員最近正式發布了開源影片Tokenizer——VidTok。
在測試中,VidTok效能全面領先,適用各種場景。
如下表所示,VidTok支援多樣化的隱空間且具有靈活的壓縮率,同時支援因果和非因果模型,以適應不同的使用需求。
- 對於連續型Tokenizer,支援不同的視訊壓縮率、不同的隱空間通道數,同時支援因果和非因果模型。
- 對於離散型Tokenizer,支援不同的視訊壓縮率、不同的碼本大小,同時支援因果和非因果模型。
更多模型在持續更新。
為了全面評估VidTok在各個設定下的重建性能,作者將VidTok與最先進的連續和離散視頻Tokenizer分別進行了對齊設定下的比較。所有模型均為4x8x8倍視訊壓縮率的因果模型,主要包含以下三種設定:
- VidTok-FSQ:離散型,碼本大小各異。基準方法包括MAGVIT-v2,OmniTokenizer,Cosmos-DV等。
- VidTok-KL-4chn:連續型,隱空間通道數為4。基線方法包括CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2等。
- VidTok-KL-16chn:連續型,隱空間通道數為16。基線方法包括CogVideoX,Cosmos-CV等。
定量實驗結果表明,VidTok在上述三種設定下均達到了SOTA性能,在常見的視訊品質評估指標PSNR、SSIM、FVD、LPIPS上具有全面的優勢。
與現有的離散Tokenizer相比,VidTok即使在使用較小的碼本大小時(例如32,768),也展現出了更優的重建性能。
在連續Tokenizer的設定下,無論隱空間通道數是4還是16,VidTok在所有評估指標上相比基線方法均取得了全面的提升。值得注意的是,這些提升是在沒有模型大小優勢的情況下達成的。
除此之外,團隊也進行了定性分析。
上圖中展示了以上三種設定下的與基準方法的比較結果。
從視訊畫面的重建品質可以看出,與現有的方法相比,VidTok在各種模型設定下,均展現了最優的重建細節保真度和主觀視覺品質。證明了VidTok作為多功能影片Tokenizer的有效性。
所以VidTok是如何做到的?
VidTok的技術亮點解析
相對於現有的影片Tokenizer,VidTok在模型架構、量化技術、訓練策略上分別做了創新。
高效率的混合模型架構設計
VidTok採用經典的3D編碼器-解碼器結構,同時創新地結合了3D、2D和1D卷積,有效地解耦空間和時間取樣。
在現有研究中普遍認為,儘管計算成本較高,完全的3D架構提供了更優的重建品質。然而,VidTok發現將部分3D卷積替換為2D和1D卷積的組合,可以有效解耦空間和時間採樣,在降低計算需求的同時,保持了高水準的重建品質。
詳細的網路架構如上圖所示。 VidTok分別處理空間採樣和時間採樣模組,並在時間採樣模組中引入了AlphaBlender操作符。其餘組件,包括輸入/輸出層和瓶頸層,則利用3D卷積來促進資訊融合。此外,整個架構中引入了層歸一化以增強穩定性和性能。實驗證明該架構在重建質量和計算量之間取得了平衡。
先進的量化技術
VidTok引進了有限標量量化(FSQ)技術,無需顯式學習碼本,顯著提高了模型的訓練穩定性和重建性能。
有限標量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」提出,其核心原理是,在隱空間表徵中,每個標量條目透過四捨五入獨立量化到最近的預定義標量值。
與傳統VQ相比,FSQ無需學習顯式的碼本,從而提高了訓練的穩定性。實驗表明,FSQ在碼本利用率、重建品質和訓練穩定性方面具有顯著優勢,作為一種先進的量化技術,有效提升了離散Tokenizer的性能。
增強的訓練策略
VidTok採用分階段訓練策略,訓練時間減少了50%,而重建品質不受影響。
視訊Tokenizer的訓練通常是計算密集的,要求大量計算資源(例如對於256×256分辨率的視頻需要3,072GPU小時的訓練時長)。這就需要開發有效的策略來降低計算成本,同時保持模型效能。
VidTok採用兩階段訓練方法來應對這項挑戰:首先在低解析度影片上對完整模型進行預訓練,然後僅在高解析度影片上微調解碼器。這種訓練策略顯著降低了計算成本——訓練時間減少了一半(從3,072GPU小時降至1,536GPU 小時),而保持重建視訊品質不變。
這個兩階段訓練的另一個優點是,由於第二階段只會微調解碼器,因此模型可以快速適應到新的領域資料中,而不會影響隱空間資料分佈。
此外,由於影片Tokenizer旨在建模輸入影片的運動動態,因此在模型中有效表示這些動態至關重要。 VidTok使用較低幀率的數據進行訓練,顯著增強了模型捕捉和表示運動動態的能力,獲得了更好的重建品質。
VidTok的開源為視訊生成、世界模型領域提供了新的工具,特別是在當前業界許多領先模型仍未開源的背景下。
團隊表示,VidTok支援後續微調也為其他應用提供了更廣泛的使用空間,研究者可輕鬆將VidTok應用於特定領域資料集,為目標場景優化效能。
更多細節內容有興趣的童鞋可參考原論文。
論文網址:https://arxiv.org/abs/2412.13061
專案網址:https://github.com/microsoft/vidtok