不用穿越,也能體驗百年前的老北京,這個AI修復視頻火爆全網
一段AI修復的視頻,讓我們體驗了一把100年前的老北京。小販叫賣、馬車過街,修復後的視頻可以清楚地展現熙熙攘攘的市井生活,作揖問候的場景也清晰可見。你能想像,這些生動展現百年前國民生活的彩色影像,是使用人工智能技術修復的嗎?近日,這段使用人工智能修復老北京影像的視頻在B站和微博上火了,引起了極大的關注。
僅在B 站上,阿婆主“大谷的遊戲創作小屋”上傳的這個舊影像修復視頻已經獲得61.9 萬的播放量、4.9 萬點贊。
網友們紛紛感嘆“厲害”,視頻“清晰連貫”,“讓我們看到了100 年前的vlog”。
視頻中,阿婆主使用人工智能技術,對民國初年的一段影像進行了上色、修復幀率和擴大分辨率的改動,從而徹底改變了這段100年前老舊影片,讓我們能夠更為細緻地觀看100年前人們的生活。
與舊影像對比之後,我們能夠對修復效果有更為直觀的感受。
視頻修復前後在色彩、清晰度方面都有了很大的提升,修復前灰濛蒙,修復後色彩鮮豔。
那麼從技術層面上看,究竟是如何做到這麼驚豔的效果的呢?阿婆主表示,他也是參考了海外YouTube博主Denis Shiryae的影像修復教程。
影像修復三大步驟
今年年初,Denis 修復1896 年經典電影的視頻也在海外火了一把。
電影界最著名的短片之一是1896 年的一部無聲電影《L’Arrivée d’un train en gare de La Ciotat》,畫面很簡單,只有50 秒,描述的是一列火車駛入車站的場景。Denis 正式對這個經典的短片進行了AI 修復,效果非常不錯。下圖可以看出修復前後畫面的強烈對比:
從Denis 的網頁介紹,我們可以看到整個修復過程主要針對三個核心點:4K 分辨率以及60fps 的幀數,除此之外還增加了背景顏色和聲音的效果。
DAIN 插幀技術
在增加FPS 方面,Denis 表示他主要應用了由上海交大Bao Wenbo 等人提出的DAIN 插幀技術(參見論文《Depth-Aware Video Frame Interpolation》)。
這項研究提出通過探索插幀中的depth cue,來顯式地檢測遮擋。
研究者開發了一個深度感知的光流投影層來合成中間流(中間流傾向於對距離較近的對象進行採樣),並學習層級特徵作為語境信息。然後,該模型基於光流和局部插值kernel 將輸入幀、深度圖和語境特徵進行變形處理,最後合成輸出幀。
DAIN 模型的架構如下圖所示:
DAIN 架構圖。給出兩個輸入幀,DAIN 首先估計其光流和深度圖,並使用深度感知光流投影層來生成中間流;然後採用自適應變形層(adaptive warping layer),基於光流和空間變化的插值kernel 對輸入幀、深度圖和語境特徵進行變形處理;最後,使用幀合成網絡生成輸出幀。
4K 分辨率
自從1998年第一台高清電視投入市場以來,“高清”一直是技術追逐的方向之一。簡單羅列幾個數字,老式標清電視的分辨率僅為720×480,也就是說一次可顯示的內容為345,600像素。高清電視的分辨率為1920×1080,總像素為2,073,600,是標清的6倍,而4K的3840×2160分辨率則需要8294,400像素。
簡單而言,視頻修復過程至少需要額外填充600萬像素來適應4K高清分辨率,而這種“插值”過程正是AI技術的用武之地,所補充顯示的內容皆是 基於相鄰周邊像素 所呈現的內容 。“插值”過程本質上是一種猜謎遊戲,如果讓卷積神經網絡這類AI技術去發號施令的話會有更優質的反饋效果。
在此展示中,Denis 通過Gigapixel AI 軟件將分辨率提升至4K,該產品由Topaz Labs 開發,目前已進入到成熟的商業階段。研發之初是為了幫助攝影師在不丟失任何細節的情況下將照片質量提升6 倍,將該技術產品化的過程中發現將其應用至視頻是完全可行的。不過值得一提是,渲染幾秒鐘的視頻可能需要幾個小時的處理時間,感興趣的朋友可以一試。
DeOldify 著色模型
而在著色上,相信社區的大部分讀者都知道一個基於GAN 的圖像著色模型DeOldify。通過下面的對比圖,我們可以看到該模型的效果。
DeOldify 基於生成對抗網絡,由深度學習研究員Jason Antic 開發並維護。自從2018 年項目開啟以來,DeOldify 已經進行了多次迭代。
數字修復中的AI 技術應用要比想像的多
上述圖像分辨率補充、FPS 提升、色彩填充是數字修復大方向下的三個子環節,而整個影像修復技術處處可見人工智能的身影。
以圖像修復為例,一般步驟為:輸入圖像,檢測畫面信息及獲得畫面所有像素並識別受損區域,計算受損區域的像素點優先項,確定優先項最高的為待修復像素塊,計算源區域中的匹配塊與待修復區域的誤差,確定誤差值最小的為最佳匹配,進行填充和修復,檢測損傷區域是否全部修復,若已修復則輸出圖像。
來自機器之心pro
而對視頻修復而言, 它是基於圖像修復演變而來的 ,也同樣是逐幀修復,所以其流程與圖像修復類似。
至於圖像分辨率提升環節,Denis 通過Gigapixel AI 軟件進行處理。而實際情況中圖像分辨率提升以及圖像超分辨率的解決涉及到許多技術細節,如圖像配準、圖像分割、圖像壓縮、圖像特徵提取、圖像質量評估等等。而這些子方向的研究在各大AI 學術頂會上頻頻可見。類似地,通過機器學習方法從訓練樣本集中提取視頻中的高頻信息模型,從而對填充所需信息進行合理預測,達到提升視頻圖像分辨率的目的,這樣相似的思路層出不窮。
從應用方面來看,高清設備的普及使得對早期的遊戲及電影進行重製成為一大需求,圖像修復,圖像超分辨率等眾多修復技術的發展也為該市場提供了一個可持續的解決思路。
最後,在了解完修復舊影像背後的技術後,感興趣的讀者也可以嘗試下。說不定,你也能在B 站、抖音上火一把。