AI透過聆聽街道背景音樂產生準確的街道圖像
雖然已經有人工智慧系統可以產生與城市街道(和其他地方)的無聲圖像相匹配的聲音效果,但一項實驗性的新技術卻恰恰相反。它產生的影像與街道上的錄音相匹配,準確度高得驚人。聲音到圖像擴散模型”由德克薩斯大學奧斯汀分校的康宇豪副教授及其同事開發,並在一個包含10 秒鐘視聽片段的數據集上進行了訓練。
這些片段由靜態圖像和環境聲音組成,取自YouTube 上的北美、亞洲和歐洲的城市和鄉村街道影片。 利用深度學習演算法,該系統不僅學會了哪些聲音與影像中的哪些項目相對應,還學會了哪些聲音品質與哪些視覺環境相對應。
訓練完成後,該系統的任務是僅根據100 個其他街景影片錄製的環境聲音產生影像,每個影片產生一張影像。
人工智慧生成的部分街道圖像與實際街道視頻劇照的對比示例圖/德克薩斯大學奧斯汀分校
隨後,一個人類評審團在聆聽圖像所依據的視訊背景音樂的同時,向他們展示了每張圖像以及兩張生成的其他街道圖像。 當他們被要求識別三幅圖像中哪一幅與配樂相對應時,他們的平均準確率達到了80%。
更重要的是,在對生成的圖像進行電腦分析時,發現它們與原始影片中開闊天空、綠色植物和建築物的相對比例”密切相關”。
事實上,在許多情況下,生成的影像也反映了原始影片的光照條件,例如晴天、陰天或夜晚。 這可能是由於夜間交通噪音減少或夜間昆蟲的叫聲等因素造成的。
雖然這項技術可以應用於法醫領域,例如大致了解錄音的地點,但這項研究的目的更多的是探索聲音是如何影響我們的場所感的。
科學家們在最近發表於《自然》(Nature)期刊上的一篇論文中指出:「研究結果可能會增強我們對視覺和聽覺感知對人類心理健康影響的認識,可能會指導城市設計實踐中的場所營造,也可能會提高社區的整體生活品質。 “
了解更多:德州大學奧斯汀分校