下一代小米AI相機曝光:完全替代濾鏡8K視頻成主流
AI相機作為一個概念並不新鮮,小米早在小米8的時代就推出了第一代小米AI相機。最近發布的小米10系列以及小米10青春版手機,升級到了2.0版本。近日,小米官方發文詳細科普了全新的小米AI相機2.0,同時透露了下一代小米AI相機的特色。
小米介紹稱,傳統的AI相機的做法,通常分成兩個部分,一是識別,二是後處理。
前者通過神經網絡來“認知”當前拍攝的場景,後者根據不同的場景,使用一些傳統的方式來針對特定場景做一些優化,比如加一些特殊的濾鏡。所謂“AI“,其實只有前面的識別部分跟AI掛鉤。
這種方式最大的問題是只能針對特定的幾個預設好的場景來做優化,並且針對同一個場景,只能採用一樣的模板來處理,而沒有針對當前的色彩,光影等做一些更有針對性的局部優化,效果會大打折扣。
AI相機2.0詳細技術詳解
為了解決傳統AI相機只能使用固定模板、針對預設場景優化的問題,相機算法團隊開創性的將傳統的場景感知拓展成為全方位的色彩、對比度、光影等內容感知。
同時,小米還使用了深度神經網絡對整個畫面進行全局和局部的分析,獲取到最優的畫面效果,並且實時地對畫質進行增強。所以,新一代的AI相機能夠對所有的場景進行有針對性的畫質提升。
可以說,對於同樣的一片草地,在不同的光照,角度,甚至背景下,新的AI相機都會有不一樣的優化效果。
原片和AI相機的對比
小米的技術把識別+處理合二為一,一站式的實現了AI修圖師的效果。為了實現上述功能,小米在以下幾方面進行了技術創新。
(1)數據生成
AI相機2.0的目標是能夠產生美的圖片,這就包括要對原圖做噪聲,亮度,顏色,對比度,動態範圍等多個維度進行調整。
對於深度學習而言,這樣的訓練集很難獲取。除了和團隊中的設計師合作PS了數万張手機拍張數據之外,小米也收集了很多網絡上的高分圖片作為目標,使用GAN網絡進行訓練。
小米使用的GAN網絡是two path GAN,跟cycle GAN 比較類似,能夠保證生成網絡生成的圖片跟原圖片的內容保持一致,僅僅去優化一些我們希望對原圖進行優化的維度。
Two Path GAN示意圖
(2)訓練過程
在訓練的過程中,小米使用的loss主要有consistency loss,similarity loss, total variance loss , adversarial loss,通過不同的weight 來控制生成網絡的優化方向和能力。
下面將從訓練機制、幀間一致性處理、開關模塊這三個方面來詳細描述訓練過程:
> Teacher – student 機制:
生成器網絡訓練結束後,以生成器網絡作為teacher 網絡,一個更輕量級的網絡作為student 網絡進行學習。在輕量級的網絡中我們加入了自相似圖(self-similarity map)作為guidance map來實現相似結構和區域的效果盡量一致。
Teacher-Student網絡
> 幀間效果一致性:
由於每幀都會做處理,幀間效果需要穩定,否則在視頻和預覽的時候就會容易出現跳變。但是上述的訓練是在圖片上做的,因此,在訓練student網絡的時候小米添加了幀間相似度loss,以保證幀間的效果一致。
幀間相似度Loss
> 開關module:
輕量級網絡由於參數比較少,對於不同特點的景物不容易做到對應效果,因此小米在訓練的過程中加入了switch module,這個模塊的作用就是能夠通過判斷不同的景物來選擇不同的效果,有效的實現了針對不同的場景做不同的處理的效果。
Switch module
(3)處理速度
在實現AI算法2.0中,還有一個最大的技術挑戰是計算量。
眾所周知,針對圖像像素處理的深度神經網絡的計算量極高,對手機的計算能力是一個很大的考驗,而小米除了要實現預覽實時處理,所見即所得的效果之外,更“變態”的要求能針對一億像素的原片進行處理。
為了實現這兩個看似不可能的任務,團隊的攻城獅們對於神經網絡的優化達到了每個四則運算都去細摳的程度。除了使用常見的網絡減枝,網絡壓縮的技術,小米還創造性地提出了一種新的基於導向圖的開關網絡結。
這個網絡不僅僅可以使得網絡參數和計算量大幅下降,也可以滿足優化的多樣性要求(噪聲,亮度,顏色,對比度,高動態等等),最終得以將全新的AI相機展現給用戶。
基於導向圖的開關網絡結構
小米方面透露,團隊已經緊鑼密鼓的開始了下一代AI相機技術的研發工作,在新的一代中,爭取在如下幾個維度上取得突破:
更多風格:
我們在尋找一種可以通過比較有限的數據集來快速訓練一種新的風格的技術,這樣可以在很短的時間內增加很多用戶喜歡的風格,最後可以完全替代濾鏡功能,甚至可以允許用戶自定義拍照風格。
更多維度:
除了色彩維度之外,我們計劃用類似的技術來處理亮度、對比度等不同的維度,完美的複制一個專業修圖師的大部分工作,全方位的提升拍照和視頻的整體畫質和觀感。
進一步優化性能:
8K視頻已經逐漸成為主流,因此對我們算法的處理時間和內存佔用提出了更高的要求,我們也在做進一步的優化。