谷歌正借助機器學習技術來改善Duo的通話質量

外媒報導稱，為保障Duo通話服務在不穩定連接狀態下的音頻質量，谷歌推出了一項名叫WaveNetEQ的音質改善方案。據悉，其基於谷歌DeepMind部門的相關技術，旨在利用人工加入的噪音來抑制音頻的抖動。這種噪音聽起來就像人類在說話，但其實是通過機器學習技術產生的。

如果你曾經撥打過網絡電話，那肯定多多少少地經歷過因連接不穩定而導致的音頻抖動。

當通話期間的部分音頻數據包在通信過程中丟失、延遲過高、或順序錯誤時，就有可能發生這樣的情況。

谷歌表示，99% 的Duo 通話都會出現數據包丟失，其中20% 的丟失率超過3%、另有10% 的丟失率超過8% 。

每款通信應用都有採取某種方式來處理丟包問題，但谷歌表示，傳統的丟包掩飾（PLC）過程，或導致高達60ms 的空缺。

相比之下，基於DeepMind 神經網絡技術的WaveNetEQ 解決方案，已經在48 種不同語言的100 多個揚聲器數據上展開了訓練。

為增加說服力，谷歌還放出了一些WaveNetEQ 與常見的PLC 技術的比較音頻。當然，新技術能夠轉換多少音頻，還是有一定的局限的。

谷歌表示，WaveNetEQ 旨在替換較短的音頻間隔，而不是真人通話期間漏掉的整個單次。因此在120ms 之後，這套系統會淡出並產生靜音。

通過評估，谷歌確保了WaveNetEQ 不會引入任何新運算的重音，此外所有處理都能夠在用戶的設備端進行，畢竟Google Duo 默認就開啟了端到端加密。

一旦網絡連接變得順暢，真人的音頻會立即恢復，WaveNetEQ 將無縫地淡出介入。目前該技術已在Pixel 4 智能機上進行測試，後續該公司還將向更多設備推廣。

WONGCW 網誌