Nature最新封面浙大博士一作：AI司機夜視能力白天黑夜一個樣

利用AI打輔助，讓機器夜視能力和白天一樣清晰——今天，這樣一種顛覆已有熱成像技術的新方法登上了Nature封面。它來自美國普渡大學和密歇根州立大學，一作為浙大畢業的博士。

通過克服傳統解決方案中的“重影”問題，這種方法在基準測試中一顯巨大優勢，不僅能像白天一樣看清環境的紋理和深度，還能感知到RGB、熱視覺以外的各種物理信息，可謂相當利好機器感知尤其是自動駕駛行業。

而作者則認為，該成果對第四次工業革命還能直接起到加速作用。

何以見得？我們翻開論文來看。

像白天一樣清楚的夜視能力

目前比較前沿的機器感知方法是利用無處不在的熱信號來重現環境信息。

但是它有一個非常明顯的缺點，就是會產生“重影效應（ghosting effect）”。

具體而言，該效應是指由於物體和環境在不斷發射熱輻射，導致三個物理屬性，即溫度（T，物理狀態）、發射率（e，材料指紋）和紋理（X，表面幾何形狀）混合在光子流中出現的一種現象（僅限於夜視情況）。

這種現象主要造成的是環境/物體的紋理缺失，如下圖所示：

只有當燈泡關閉時我們才能看到燈泡上的幾何紋理，一旦發光就完全消失，而黑體輻射不可能被“關閉”，所以也就意味著我們得到的熱圖像總是缺乏紋理，不能看到一個完全真實的黑暗世界。

在此，作者提出了一種名為HADAR（heat-assisted detection and ranging ）的方法，它以熱光子流為輸入，記錄高光譜成像熱立方體，通過TeX分解來解決重影效應這一挑戰。

作者表示，TeX分解利用機器學習生動地從雜亂的熱信號中恢復紋理（如下圖彩色部分），並使人工智能算法能夠達到信息論的極限，而到目前為止，傳統的RGB或熱視覺辦法很難做到。

它的具體實現如下圖所示：

作者介紹，其架構的物理學靈感來自三個方面。

首先，熱立方體的TeX分解依賴於空間模式和光譜熱特徵，這啟發了他們在UNet模型中採用光譜和金字塔（空間）注意力層。

其次，由於TeX的簡併性，必須指定以下數學結構來確保逆映射的唯一性（α、β代表物體的指數，v是波數），因此必須學習熱照明係數V而不是紋理X。也就是說，TeX-Net不能端到端地訓練。

最後，材料庫M及其維度是整個網絡的關鍵。

除此之外，作者還提出了一種非機器學習方法，即TeX-SGD來生成TeX-vison作為補充。

在測試中，我們能看到HADAR方法帶來了超高精度。

如下圖所示，第一行顯示基於原始熱圖像的測距方法由於重影導致精度很差；第二行則顯示與熱測距相比，HADAR中恢復的紋理和增強的精度約達100倍；

而在下面的場景中（黑色汽車、人和愛因斯坦紙板），我們能看到：

視覺驅動的物體檢測在光學成像中（a）錯誤地識別出了兩個人和一輛汽車，而激光雷達點雲（c）不但識別到兩個人還把汽車給丟了，只有HADAR方法能夠帶來全面的理解，準確框出一人一車。

最後這一組圖則充分證明，HADAR在夜間的總體視覺能力優於目前最先進的熱測距方法（GCNDepth），其RGB立體視覺更是和白天測試到的基本處於一個水平，即HADAR在黑暗中看到環境紋理和深度，就像白天一樣。

作者介紹

一作Fanglin Bao，普渡大學研究員。他於2011年6月在浙江大學獲得物理學學士學位，2016年6月獲得光學博士學位。

Fanglin Bao之前的研究集中於非均勻系統中的卡西米爾效應（量子力學），目前則延伸到張量網絡、神經網絡及其在量子物理學中的應用。

通訊作者為普渡大學電氣與計算機工程教授Zubin Jacob，以及密歇根州立大學計算機科學與工程系助理教授Vishnu Boddeti（後者正在招收“數學背景很強”的學生）。

WONGCW 網誌