MIT卷積神經網絡:能恢復模糊圖像中的清晰信息
據外媒報導,麻省理工學院(MIT)的科學家們找到了一種可以在運動模糊的視頻幀中恢復細節並重現清晰圖像的方法。這套“視覺投影模型”通過使用卷積神經網絡(CNN)來解碼圖像。
資料圖
MIT計算機科學和人工智能實驗室(CSAIL)的研究人員通過掃描數千對圖像(投影)訓練CNN,其中一幅圖像質量較低,另一幅圖像則圖像模糊。神經網絡利用這些信息然後通過學習像素模式和像素來源從本質上逆轉模糊效果。
CNN的另一部分責備稱為“變分自動編碼器(variational autocoder)”,它能夠分析輸出並評估網絡跟信號的匹配程度。隨後,它則會創建一幅“藍圖”告訴AI如何對一個投影到所有可能的匹配源進行處理。當給定一幅新圖像時,CNN會檢查像素模式並使用該藍圖尋找可能導致模糊的每個信號,然後它組合數據創建一個“高維”副本。
打個比方,在一段顯示一輛汽車飛馳而過的視頻中你可能能分辨出那輛車是紅色的,但除此之外其他的信息則都不清楚。而視覺投影模型可以獲取這些素材並創建一個足夠清晰的複製品來識別製作和模型。
這篇論文的首席作者、CSAIL的博士後Guha Balakrishnan表示:“對於我們能夠恢復這些細節就像變魔法一樣。”
實際上,研究人員對它在醫學領域的作用更感興趣。他們相信這項技術可以被用來製造類似於X射線CT的3D掃描。這一突破將能顯著降低成本,因為MRI和CT設備都非常昂貴。該軟件將能夠從成本相對較低的X射線等低信息圖像中重建出高信息圖像。
“如果我們能將X射線轉換成CT掃描,那將在某種程度上改變遊戲規則,”Balakrishnan說道,“你只需拍一張X光片,然後通過我們的算法就能看到所有丟失的信息。”