黃家駒演唱會31年後重映1小時播放破億
一場沒怎麼預熱的演唱會,在抖音直播間里火了。開場10分鐘,觀看人次就突破1600萬,1小時後飆升到1億以上。而這場演唱會,其實是從31年前穿越而來。1991年,Beyond樂隊首次登上紅磡體育館的舞台,初次登台就鑄成經典。
如今,時光流轉,這場演出在2022年的夏天在直播間裡,通過手機屏幕和上億人見面。
不過令人意外的是,儘管演唱會的母帶已經稱得上是“老古董”了,但是直播間播放的畫面卻沒有糊成渣。
無論是黃家駒臉上細微的表情,還是黃貫中鬥琴時上下翻飛的手指,歌迷們都能從手機這樣的小屏幕上看得一清二楚。
△動圖效果略有壓縮
如此清晰的效果和細節呈現,讓不少人恍惚間彷彿重回了90年代,引得歌迷直呼“Beyond精神永存!”
更值得關注的是,這種精神和情懷背後,提供核心支撐的是正在走向規模化商用的AI修復技術。
眾所周知,Beyond這盤演唱會影碟錄製於90年代,當時的技術設備都還十分有限。
就拿畫面來說,能達到的水平只有540p、25FPS。
音質方面,也會受到現場噪聲大等因素影響,最終錄下的歌聲也會大打折扣。
而Beyond的修復,畫面和音質都達到了一種新水準。更重要的是,這場看上去工程浩大的修復,其實只花1個星期就搞定了,其中絕大部分還都是由AI“直出”的。
這種技術和效率,也讓更多人潛在的情懷寄託和需求,得到釋放。
是的,AI修復正在從黑科技成為日常,也是時候更清晰地了解背後的技術原理了。
“細節到眼線都看清了”
其實這幾年,大眾對AI修復已經不再陌生。
去年,央視動漫和上海美術電影製片廠的多部經典動畫通過AI修復技術,畫面清晰度可以達到4K水平。
不過和過去的一些修復工作相比,這次修復演唱會錄像,AI還著重註意了這3個方面:
多幀去交錯人像修復亮度、色彩、氛圍調節首先來看多幀去交錯。
這裡先要普及一個概念:什麼是去交錯?
早期由於設備處理速度或者帶寬限制的問題,不少視頻錄像都是使用交錯式信號。
也就是將整個畫面平均分成一定數量的橫行,兩個場分別顯示畫面的奇數行和偶數行。
這樣一來,設備的緩存和處理速度要求都能減半。
而利用“視覺暫留效應”,兩個畫面可以在快速播放過程中呈現出完整的畫面。
不過,隨著顯示設備不斷進化升級,如液晶顯示器等都只支持逐行掃描。
這就導致老舊影片在新設備上播放時,會出現非常明顯的閃爍。
所以,需要使用去交錯的辦法,來將隔行掃描的信號轉換為逐行掃描信號。
傳統常見的去交錯方法,一般是把連續的兩個場直接拼為一幀,不做任何修改。
但是每個場之間的拍攝時間還是會存在細微變化,如果這一刻拍攝物體正在移動,就會導致去交錯後的圖像會出現“拉絲”問題。
針對這個問題,AI這次使用的是基於運動補償的多幀去交錯算法。
和傳統方法相比,這種方法的大致原理是根據鄰近場使用動態估計,去預測畫面中的物體移動並得到動態向量,根據前一個場及動態向量就能重建出一個新的場,然後將此兩個場並完成反交錯。
它的特點是泛化性更強,細節處理能力更好。
從結果來看,修復後吉他手的手部偽影完全被去除了,輪廓也清晰了起來。
第二個不同之處,便是對人像的著重修復。
演唱會錄像中勢必會存在大量的人像鏡頭,很多還是懟臉大特寫,歌迷格外關注的鏡頭往往也是這些部分。
但受限於當年的拍攝設備水平,最終呈現的效果很容易是人和背景糊成一片,五官輪廓也不清晰。
針對這一問題,這次修復中使用了火山引擎自研的自適應人像增強算法。
這種方法基於深度學習模型,會在消除人臉整體的模糊和壓縮損傷的同時,進一步對五官進行重建。
比如之前不少網友說,修復後影像裡,黃家駒的眼睛都有了光、眼線都能看得一清二楚。
這就是因為算法對眼睛部分進行了重建,並補足了更多細節。
除了五官以外,這一算法還能兼顧皮膚紋理、頭髮絲等方面的細節處理,可以讓修復後的人臉更加真實。
此外,考慮到演唱會中拍攝到表演者的臉部不只有正面,算法還考慮到側臉、俯視、仰視、被話筒遮擋等多種情況,可以解決很多極端情況下的修復問題。
第三方面,體現在色彩亮度增強上。
據技術提供方火山引擎介紹,原片中其實存在大量過曝、死黑場景,色彩還原度也不夠高。
而這些問題不是簡單調節亮度或色彩就能解決的。
就拿死黑場景舉例,因為影片本身還存在很嚴重的底噪,如果直接把偏暗場景調亮,底噪也會被同時放大。
至於色彩方面,還需要平衡好修補褪色和保留復古感兩方面因素。
在這方面,火山引擎是根據具體片源的效果,依據美學評分對不同方面進行調整。
並能根據不同幀的色彩統計信息進行分區域自適應亮度增強,從而找到最佳的明暗平衡效果。
據技術人員介紹,以上幾方面工作幾乎都是由AI完成的,人工參與的只有一些調參部分。
甚至連對畫質的評估,AI都參與了一波。
這次使用了一個針對畫質的VQScore算法,對影片效果進行評估。
該算法在ICME 2021的“壓縮UGC視頻質量評估”比賽中,獲得了“無參考視頻質量評價(NR-VQA)MOS賽道”第一名。
拯救古早收音bug
視頻修復方面細節拉滿,不過既然是演唱會,光修復畫面可不夠,音質體驗更是撥動觀眾心弦的關鍵。
受限於當時的技術水平和錄音設備,在原版影碟中,其實存在各種各樣的音質問題。
比如:
噪聲干擾:設備、環境的噪聲影響音質帶寬不足:設備、壓縮算法等導致音頻截止頻率低響度問題:響度問題導致聽感不適針對這些問題,此次火山引擎音頻技術團隊在Beyond演唱會的音質修復方面,主要用到了三種算法。
音頻降噪算法
首先,來看看音頻降噪算法帶來的效果。
由於90年代演唱會收音條件有限,現場的環境又比較嘈雜,原版音頻中噪聲是比較明顯的。
而修復之後,黃家駒的聲音和音樂聲變得更加清晰、乾淨。
這一點在頻譜圖上表現得很明顯:降噪前,音頻頻譜較為渾濁;降噪後,頻譜圖清晰了不少。
值得注意的是,傳統的降噪方案通常針對人聲,在演唱會這樣的場景裡,容易“誤傷”音樂本身。
因此,在為演唱會設計降噪算法之初,技術團隊就將降噪導致的音樂失真問題考慮在內,通過在訓練時加入音樂數據等方式,實現了對音樂場景和人聲場景的兼容。
也就是說,可以在保留人的說話聲、唱歌聲以及音樂本身的同時,抑制其他噪聲。
音頻超分算法
噪聲之外,由於演唱會拾音設備、錄製硬件以及存儲壓縮等技術原因,聲音帶寬受損(即帶寬變窄)同樣會影響聽覺體驗。
因此,修復團隊還引入了音頻超分算法。
該算法主要對演唱會中人聲的部分進行了頻帶拓展,以使人聲更加清晰。
從藍框部分可以看到,經過超分,原始音頻的高頻部分得到了拓展和增強。
響度算法
最後,是通過音源分離算法提取演唱會中歌聲的部分,然後用響度算法對響度進行調整。
這是因為演唱會現場拾音的過程中,可能會出現人唱歌的聲音被樂器、環境聲蓋住的情況。
單獨提取唱歌部分的人聲,進行響度調整,然後再與原音頻混合,能夠使整體的聲音大小聽上去更加舒適。
一個幕後小故事是,無論是畫質修復還是音頻修復,都需要人工來進行最終質量評估。
而修復團隊的程序員們恰好都是聽著《海闊天空》、《光輝歲月》長大的一群人。
因此處理Beyond演唱會的舊影像時,修復人員們都是以粉絲的心態,一遍又一遍不斷地去聽、去看修復效果,力圖用算法把當年紅館的熱烈氛圍在今日重現。
他們的標准說起來也很簡單:
我得先覺得身臨其境了。
另外,值得一提的是,修復人員談到,本次修復基本都是AI搞定的。目前,這樣的技術能力已經被集成到火山引擎對外開放的智能處理、音頻技術兩個產品中。
AI修復技術的B/C面
當一場場線上懷舊演唱會在網上掀起熱潮,AI修復技術也再一次成為技術熱點。
並且在一次次的“出圈”之中,這類“網紅”技術的發展路徑和商業化前景,逐漸清晰明朗起來。
第一階段,是新興技術的探索期。
在這個階段,老片修復的相關技術手段從實驗室走向民間。以B站up主大谷的視頻為代表的個人修復作品,屢屢吸足眼球,引發熱議。
△大谷修復作品
伴隨著雲與AI的進一步結合,各大科技廠商開始把“網紅”引入家門,這也就開啟了AI修復技術的第二階段:技術工業化進程中的試驗期。
這時候,開始有更多工業級的修復項目出現在大眾眼前,但仍舊有“單個項目、單點突破”的特點。
比如此前西瓜視頻和火山引擎推出的“經典視頻4K修復計劃”,就是通過工業化的AI技術手段,成批量地修復《哪吒傳奇》、《黑貓警長》等百部經典動畫。
而現在,你或許不知道的是,這樣的技術不再僅僅停留在公益項目、To B產品的階段,甚至打開抖音,你也能用上。
比如畫質修復的相關算法,就已經被集成到抖音個人用戶的作品發布功能當中。即使沒有專業的拍攝設備,用戶投稿的作品經過AI針對清晰度、色彩、瑕疵、失真等問題的自動修復,也能達到不錯的效果。
由此可見,在長期的技術積累與實踐之後,AI修復技術作為一種成熟技術產品的第三階段——大規模商用落地,或許已經拉開帷幕。
尤其對於字節跳動這樣的廠商而言,其旗下擁有抖音等每天都會產生海量音視頻UGC內容投稿的平台。
從修復動畫到Beyond演唱會,一系列技術問題的突破和解決,最終都會直接在產品層面上有所體現。
並且不僅在雲這一側面向B端,也已經在C端顯現出潛能。
實際上,這也是AI技術不斷普惠、下放過程中的一個典型案例。
咱們作為普通用戶,受益其中,自然喜聞樂見。
說說你最希望AI修復的“老東西”吧?