科學家設計新AI系統從無聲鋼琴演奏視頻中再現演奏聲音
據外媒New Atlas報導,想像一個計算機程序能夠直觀地識別出在無聲的鋼琴演奏視頻中演奏的是哪首樂曲,或許並不誇張。然而,一個新的人工智能係統卻更進一步,以數字方式逼真地再現了鋼琴演奏的聲音。
這項技術被稱為Audeo,由華盛頓大學的一個團隊設計。研究人員使用鋼琴家保羅·巴頓的YouTube視頻對系統進行了培訓和測試。培訓包括約17.2萬巴頓演奏巴赫和莫扎特等著名古典作曲家音樂的視頻幀。
在分析一段無聲視頻時,所產生的系統首先會觀察哪些鍵被按下的順序,確定各個音符及其排列方式。也就是說,它還能感知到每個鍵被擊打的力度和被按住的時間–這讓它能計算出每個音符的強度,以及它在隨後彈奏的音符下面持續的時間長度。它還考慮到了鋼琴獨特的聲學特性。然後,這些數據被轉換為一種可以被現有的數字合成器理解的格式。據報導,當該合成器回放音樂文件時,它聽起來非常像原始的鋼琴音樂。
在對Audeo的測試中,它的任務是根據巴頓演奏的靜音視頻重現鋼琴音樂,而不是系統所訓練的音樂作品。當SoundHound等音樂識別應用分析這些再現時,它們能夠以大約86%的準確率識別出樂曲。相比之下,當這些應用分析相同視頻中的原始鋼琴音頻時,其識別準確率攀升至93%。隨著技術的進一步發展,這種差距應該會縮小。
“我們希望我們的研究能夠實現與音樂互動的新方法,”該研究的高級作者Eli Shlizerman副教授說。“例如,未來的一個應用是,Audeo可以擴展到虛擬鋼琴,攝像頭只記錄一個人的手。此外,通過將攝像頭放在真實的鋼琴之上,Audeo有可能協助教學生如何演奏的新方法。”