借助機器學習技術研究人員將單聲道音頻轉為2.5D格式
德克薩斯大學奧斯汀分校,剛剛攜手Facebook人工智能研究員,開發出了一套基於機器學習技術的“單聲道音頻轉換”技術。其能夠分析視頻中場景,轉換出更加令人感到震撼的“2.5D視覺立體聲”。顯然,這項技術很適合將普通單聲道音頻,更好地運用到虛擬現實(VR)頭戴式、帶來更出色的沉浸式體驗。
人類之所以能感知到3D 空間的立體聲,得益於雙耳的獨特結構。基於聲音傳播的時差,大腦才能夠確定物體的距離和位置。這種3D 音頻體驗,可以通過模擬雙耳的立體聲設備來錄製和復現。
遺憾的是,大多數音頻都是單聲道格式的(錄製時就只使用了單個麥克風)。雖然日常生活中已經“夠用”,但它並不適合VR 等追求沉浸式體驗的應用場景。
2.5D Visual Sound(via)
有鑑於此,將單聲道音頻轉換成雙聲道,就變得很有必要。好消息是,研究人員Ruohan Gao 和Kristen Grauman,已經找到了一種相當接近的方法。
該方法依賴於,在深度學習技術的加持下,通過分析畫面中各個物體的空間位置,即可轉換出更加立體的2.5D音頻。
當然,這項方法也存在著一定的限制,尤其是存在一些讓AI 無法理解的對象的時候。感興趣的朋友,可以觀看上面這段演示視頻。
[編譯自:SlashGear ]