MIT聯合沃森實驗室團隊推出最新AI 多種高難度樂器信手拈來

2020-07-24 Comments 0 Comment

會玩樂器的人在生活中簡直自帶光環！不過，學會一門樂器也真的很難，多少人陷入過從入門到放棄的死循環。但是，不會玩樂器，就真的不能演奏出好聽的音樂了嗎？最近，麻省理工（MIT）聯合沃森人工智能實驗室（MIT-IBM Watson AI Lab）共同開發出了一款AI模型Foley Music，它可以根據演奏手勢完美還原樂曲原聲！

而且還是不分樂器的那種，小提琴、鋼琴、尤克里裡、吉他，統統都可以。

只要拿起樂器，就是一場專業演奏會！如果喜歡不同音調，還可以對音樂風格進行編輯，A調、F調、G調均可。

這項名為《Foley Music：Learning to GenerateMusic from Videos》的技術論文已被ECCV 2020收錄。

接下來，我們看看AI模型是如何還原音樂的？

會玩多種樂器的Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣，為樂器演奏者配樂，同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏視頻，AI會自動鎖定目標對象的身體關鍵點（Body Keypoints），以及演奏的樂器和聲音。

身體關鍵點：由AI系統中的視覺感知模塊（Visual Perception Model）來完成。它會通過身體姿勢和手勢的兩項指標來反饋。一般身體會提取25個關2D點，手指提起21個2D點。

樂器聲音提取：採用音頻表徵模塊（Audio Representation Model），該模塊研究人員提出了一種樂器數字化接口（Musical Instrument Digital Interface，簡稱MIDI）的音頻表徵形式。它是Foley Music區別於其他模型的關鍵。

研究人員介紹，對於一個6秒中的演奏視頻，通常會生成大約500個MIDI事件，這些MIDI事件可以輕鬆導入到標準音樂合成器以生成音樂波形。

在完成信息提取和處理後，接下來，視-聽模塊（Visual-Audio Model）將整合所有信息並轉化，生成最終相匹配的音樂。

我們先來看一下它完整架構圖：主要由視覺編碼，MIDI解碼和MIDI波形圖輸出三個部分構成。

視覺編碼：將視覺信息進行編碼化處理，並傳遞給轉換器MIDI解碼器。從視頻幀中提取關鍵坐標點，使用GCN（Graph-CNN）捕獲人體動態隨時間變化產生的潛在表示。

MIDI解碼器：通過Graph-Transfomers完成人體姿態特徵和MIDI事件之間的相關性進行建模。Transfomers是基於編解碼器的自回歸生成模型，主要用於機器翻譯。在這裡，它可以根據人體特徵準確的預測MIDI事件的序列。

MIDI輸出：使用標準音頻合成器將MIDI事件轉換為最終的波形。

實驗結果

研究人員證實Foley Music遠優於現有其他模型。在對比試驗中，他們採用了三種數據集對Foley Music進行了訓練，並選擇了9中樂器，與其它GAN-based、SampleRNN和WaveNet三種模型進行了對比評估。

其中，數據集分別為AtinPiano、MUSIC及URMP，涵蓋了超過11個類別的大約1000個高質量的音樂演奏視頻。樂器則為風琴，貝斯，巴鬆管，大提琴，吉他，鋼琴，大號，夏威夷四弦琴和小提琴，其視頻長度均為6秒。以下為定量評估結果：

可見，Foley Music模型在貝斯（Bass）樂器演奏的預測性能最高達到了72%，而其他模型最高僅為8%。

另外，從以下四個指標來看，結果更為突出：

正確性：生成的歌曲與視頻內容之間的相關性。

噪音：音樂噪音最小。

同步性：歌曲在時間上與視頻內容最一致。

黃色為Foley Music模型，它在各項指標上的性能表現遠遠超過了其他模型，在正確性、噪音和同步性三項指標上最高均超過了0.6，其他最高不足0.4，且9種樂器均是如此。

另外，研究人員還發現，與其他基準系統相比，MIDI事件有助於改善聲音質量，語義對齊和時間同步。

說明

GAN模型：它以人體特徵為輸入，通過鑑別其判定其姿態特徵所產生的頻譜圖是真或是假，經過反複訓練後，通過傅立葉逆變換將頻譜圖轉換為音頻波形。

SampleRNN：是無條件的端到端的神經音頻生成模型，它相較於WaveNet結構更簡單，在樣本級層面生成語音要更快。

WaveNet：是谷歌Deepmind推出一款語音生成模型，在text-to-speech和語音生成方面表現很好。

另外，該模型的優勢還在於它的可擴展性。MIDI表示是完全可解釋和透明的，因此可以對預測的MIDI序列進行編輯，以生成AGF調不同風格音樂。如果使用波形或者頻譜圖作為音頻表示形式的模型，這個功能是不可實現的。

最後研究人員在論文中表明，此項研究通過人體關鍵點和MIDI表示很好地建立視覺和音樂信號之間的相關性，實現了音樂風格的可拓展性。為當前研究視頻和音樂聯繫拓展出了一種更好的研究路徑。

以下為Youtube視頻，一起來感受下AI音樂!

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

MIT聯合沃森實驗室團隊推出最新AI 多種高難度樂器信手拈來

2020-07-24 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆