給手機配上AI技術拍出的照片真能比肩單反?
目前,出現在新一代智能手機上的3D傳感器,只是機器學習所引發的攝影技術浪潮的冰山一角,該類技術將不僅僅糾正智能手機照片的缺點,還將為攝影帶來一些令人驚嘆的新元素。攝影在智能手機時代已經發生了改變,不僅拍攝姿勢不同(比如自拍),手機攝像頭捕捉光線的整個過程也變得完全不一樣了。
攝像頭不再只是一個透鏡和傳感器,它們還集成了一組算法,這些算法可以立即處理圖像,瞬間就能獲得桌面軟件耗費數小時才能實現的照片效果,攝影已然成為計算領域的一門學問。
人工智能機器學習形式持續不斷的進步將會帶來更多的功能,讓今天的智能手機照片變得過時。
外媒認為,體現當今手機的尖端攝影技術的最新例子包括:Alphabet子公司谷歌的Pixel 3智能手機照片,以及蘋果iPhone X的照片。在Pixel 3上,谷歌使用機器學習在低光照條件下捕捉更多的細節,使得夜景看起來像白天。這些根本不是自然界中曾經存在過的鏡頭,它們完全是超分辨率的圖片。
從2017年推出iPhone X開始,蘋果公司添加了“bokeh”,巧妙地模糊了焦點之外的元素,這並不是像傳統攝影那樣通過鏡頭本身的某些方面來實現的,而是通過在捕捉到圖像後對像素進行計算調整來實現的。
“移軸”相機
我們預測,2019年和2020年的突破性發展很有可能是通過操控圖像的視角來改善,希望這能糾正智能手機攝影中固有的失真問題,這些失真使得智能手機在數碼單反(DSLR)相機照片面前相形見絀。
卷積神經網絡(CNN)試圖從一張圖片中重構現實的過程
事實上,它們可以達到類似於“移軸”相機的效果。在移軸相機中,鏡頭所成的角度可彌補一個人站在相機前的角度,從而糾正由於個人與場景之間的角度造成的圖像失真。單反相機用戶可以在由不同的供應商提供的各種可拆卸鏡頭中實現移軸功能。
一般的手機攝像頭都有一個非常小的透鏡鏡筒,因此它所捕捉到的一切東西都是扭曲的。在現實世界中,沒有什麼形狀是恰到好處的。大多數人可能不會注意到,又或者可能不會在意,因為他們已經習慣了Instagram上的自拍。但如果能改善這些畸變就更好了。這一點能做到的話,那麼它將會是來自谷歌、蘋果等公司的下一輪智能手機主推的一個賣點。
iPhone和其它品牌的手機將越來越多地搭載帶有3D傳感器的後置攝像頭。這些傳感器由Lumentum Holdings和其他的芯片供應商等公司製造,通過發出光束併計算它們在物體反彈後如何返回手機,來測量手機周圍環境的深度。“飛行時間”等技術可以讓手機詳細測量周圍環境的三維結構。
那些傳感器可以利用的是,近年來為了解二維圖像和現實世界之間的關係而進行的大量統計工作。
谷歌Pixel 3智能手機上的“夜景”功能
人們做了大量的統計工作來實現移軸鏡頭那樣的物理特性,不管是有特殊攝像裝置的,還是沒有特殊攝像裝置的。例如,一項名為“隨機抽樣一致性”(RANSAC)的技術可以追溯到1981年,專門用於尋找三維世界中的地標,這些地標可以映射到二維圖像平面上的點,以便了解二維圖像與三維現實世界之間的關係。使用這種技術,可以更好地理解二維呈現是如何與現實世界相對應的。
2015年,佛羅倫薩大學的一組研究人員在RANSAC技術的基礎上,通過對相機拍攝的照片進行逆向推理,推導出了一種泛傾斜變焦相機的結構,他們能夠通過軟件來分析相機位置的不同在多大程度上引發了失真,從而有效地將控制相機的執行機構調至最佳狀態,他們可以將這種技術用於視頻,而不僅僅是用於靜止的圖像。
2017年,德國埃爾蘭根-紐倫堡大學和伍茲霍爾海洋學研究所的研究人員展示了一個名為CameraTransform的Python庫,該庫可讓人們通過對拍攝的圖像進行逆向計算,來估算物體在現實世界中的真實尺寸。
四角觀察:研究人員創建的一種神經網絡,由編碼器和解碼器結合生成的對抗性網絡組成,被用於推斷圖片中被遮擋的物體
去年,德國慕尼黑工業大學和佳能公司的研究人員表示,只需拍一張圖片就可以推斷出被另一個物體遮擋的場景中有什麼。這種技術被稱為“分層深度圖像”,可以通過從照片中移除一個物體來創建新的場景,呈現相機從未見過的背景,但這是通過圖像計算實現的。該方法使用了許多神經網絡應用中常見的編碼-解碼器方法來估計場景的深度,也使用了“生成對抗網絡”(GAN)來構造場景中在拍攝照片時從未實際出現在視野裡的部分。
所有的這些研究正在不斷湧現,並將在下一代配備3D傳感器的智能手機攝像頭上達到高潮,帶來一些不可思議的功能特性。這種研究應該會帶來令人驚嘆的成果。至少,人們可以想像,用智能手機拍攝出的人像不再會出現怪異的面部扭曲。超分辨率的建築圖片將有可能通過消除鏡頭上的所有扭曲而形成平行線。隨著手機變得能夠大量產生精確度和逼真度皆十分驚人的照片,智能手機行業將能夠在與單反相機的交鋒中取得又一場胜利。
但是,智能手機攝影的長期趨勢當然是遠離現實主義,而轉向取得更引人注目的效果。這在計算攝影誕生之前是無法想像的。因此,我們可能會看到3D傳感技術的應用趨向於超現實主義。
舉例來說,移軸相機可以用來創造一些出奇漂亮的效果,比如縮小景深到一個極端的程度,這會使得風景看起來就像玩具模型,但效果還是出奇的好,有些手機應用程序也能做到類似的事情,但將3D傳感器與人工智能技術結合起來的效果,將遠遠超出那些應用程序所能達到的效果,Photoshop中有實現移軸的技術,但是每次按下快門按鈕,相機都會產生同樣的效果,毫無疑問會讓人更加心滿意足。
光靠人工智能可行嗎?
未來,在推進機器學習技術方面,會有另一個重要的階段。我們有可能會放棄使用3D傳感器,而僅僅使用卷積神經網絡(CNN)來推斷物體在空間中的坐標,這將節省在手機中安裝傳感器的費用。
然而,就像微軟的研究人員和學術合作者在本週發表的一份報告中所討論的那樣,目前這種只使用軟件的方法收效甚微。他們寫道,只使用軟件的方法被稱為“絕對姿態回歸”(absolute pose regression),在經過訓練後它並未能推而廣之,這意味著無論卷積神經網絡掌握了什麼技術,在用新圖像進行測試時,它都無法準確估量幾何圖形。
該報告的作者認為,他們的研究是對純軟件方法的“一項重要的合理性檢查”。他們的結論是,“姿態回歸方法要變得切實可行,還長路漫漫。”
這項工作將如何完成呢?不僅僅依靠研究人員。它將需要許許多多的智能手機用戶的參與。有了帶有3D傳感器的新型手機,他們將能夠拍攝出令人印象深刻的3D感應增強圖像。當他們這樣做的時候,他們的設備,或者云,將會跟踪現實世界的幾何結構與二維圖像之間的關係。
換句話說,它將利用所有的這些活動來持續進行學習,總有一天,只要有足夠的3D圖像,卷積神經網絡或任何其它被使用的算法都能足夠聰明地觀察這個世界,即使沒有3D傳感器幫助提供深度感知能力,也能準確地知道這個世界是什麼樣的。