Lyra宣布開源:谷歌的超低碼率語音壓縮編解碼器
今天谷歌宣布了開源了Beta 版Lyra,這是一款使用機器學習來產生高質量語音通話的音頻解碼器。目前Lyra 的代碼和相關演示已經放在Github 上了,在質量能夠媲美其他主流編解碼器的前提下能夠將原始音頻壓縮到每秒3 kilobits。
過去十年裡,移動連接穩步增長,但設備上計算能力的爆炸性增長已經超過了可靠、快速的互聯網接入。即使在有可靠連接的地區,“隨時隨地”工作和遠程辦公的出現也使數據限制變得緊張。根據BroadbandNow 的統計數據,在新冠疫情期間美國前200 個城市中有將近90 個城市寬帶因為寬帶緊張而降速。
谷歌認為,Lyra 可能會有廣泛的應用前景,包括存檔大量語音、節省電池到緩解緊急情況下的網絡擁堵等。
Lyra的架構分成兩塊,編碼器和解碼器。當有人對著手機說話時,編碼器會從他們的語音中捕捉到獨特的屬性,稱為特徵(features)。Lyra以40毫秒為單位提取這些特徵,然後將其壓縮並通過網絡發送。解碼器的工作是將這些特徵轉換回音頻波形,可以通過聽眾的手機播放出來。
根據谷歌的說法,Lyra的架構類似於傳統的音頻編解碼器,它們構成了互聯網通信的主幹。但這些傳統的編解碼器是基於數字信號處理技術,而Lyra的關鍵優勢則來自於其解碼器重建高質量信號的能力。
谷歌Chrome 瀏覽器工程師Andrew Storus 和Michael Chinen 在一篇博客文章中寫道:“我們很高興看到開源社區以創造力著稱的Lyra被應用於Lyra,以便提出更多獨特和有影響力的應用。我們[希望]能夠讓開發者盡快地獲得反饋”。