研究人員提出可以改善任何視頻質量的AI模型
研究人員越來越多地使用AI將歷史鏡頭轉換為高分辨率、高幀率的視頻,看起來就像是用現代設備拍攝。為了簡化該過程,羅切斯特大學、東北大學和普渡大學的研究人員最近提出了一種框架,該框架可從低幀頻、低分辨率視頻生成高分辨率慢動作視頻。
據研究團隊表示,他們使用的“時空視頻超分辨率(STVSR)”算法不僅在圖像質量上比現有方法更好,而且比以前的最新AI模型快三倍。
就某種意義上而言,這一框架的提出是繼英偉達在2018年發布的針對視頻處理AI模型後的再次提升,當年英偉達的AI模型可以對任何視頻應用進行慢動作處理。據了解,類似的高分辨率技術已經應用於視頻遊戲領域。去年,《最終幻想》的用戶通過使用一款名為AI Gigapixel的軟件(售價100美元)來提高《最終幻想VII》的背景分辨率正是基於這類技術。
具體而言,STVSR同時學習時間插值(如何在原始幀之間合成不存在的中間視頻幀)和空間超分辨率(如何從相應的參考幀及其相鄰幀中重建高分辨率幀);與此同時,得益於伴隨的捲積長短期記憶模型,它能夠利用視頻上下文和時間對齊來從聚合特徵中重建幀,以此合成高分辨率慢動作視頻。
研究人員使用來自Vimeo的60000多個7幀剪輯的數據集對STVSR進行了培訓,並使用單獨的評估語料庫將數據集劃分為快動作、正常動作和慢動作集,以測量各種條件下的性能。在實驗中,他們發現STVSR在快動作的視頻上獲得了顯著的改進,包括那些具有挑戰性的動作視頻,例如籃球運動員在球場上快速移動的視頻。據外媒報導稱,該AI模型具有更精確圖像結構和更少模糊偽影的幀重建能力,同時又比基準模型小四倍、快至少兩倍。
“通過這種單階段設計,我們的網絡可以很好地探索任務中時間插值與空間超分辨率之間的內在聯繫,” 預印本論文的合著者寫道。“它使我們的模型能夠自適應地學習,以利用有用的本地和全局時間上下文來緩解大型運動問題。大量的實驗表明,我們的框架比現有AI模型更有效、效率更高,並且所建議的特徵時間插值網絡和可變形模型能夠處理非常具有挑戰性的快速運動視頻。”
據外媒報導稱,該項目研究人員打算在今年夏天對外公佈源代碼。