谷歌開源實時語音轉錄引擎Live Transcribe Speech Engine
昨日,谷歌在其開源博客中宣布開源Android語音識別轉錄工具—— Live Transcribe的語音引擎(Live Transcribe Speech Engine),它旨在將語音或對話實時轉錄為文字,還能夠為聽障人士提供幫助。
Live Transcribe 是谷歌於今年2月推出的一款Android應用程序,它的語音識別由谷歌最先進的Cloud Speech API提供。但是,依賴於雲引入了一些複雜性,不斷變化的網絡連接、數據成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來,希望開發人員在已有的基礎上進一步構建和開發。
Cloud Speech API 目前無法支持無限的音頻流,團隊目前採取了一些措施來解決這一難題,例如在達到超時之前關閉並重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。
無限流媒體音頻帶來了一大挑戰。在許多國家,網絡數據非常昂貴,並且在互聯網較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,並最終在不影響精度的情況下將數據使用量減少了10 倍。
另外,由於是提供實時語音轉錄,轉錄出來的文本會隨著語音的輸入不斷發生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功於它的自定義Opus 編碼器。
此外,值得一提的是,Live Transcribe 支持超過70 種語言,並能夠根據語音自動識別語種,其中也包括中文。