谷歌開源實時語音轉錄引擎Live Transcribe Speech Engine

2019-08-18 Comments 0 Comment

昨日，谷歌在其開源博客中宣布開源Android語音識別轉錄工具—— Live Transcribe的語音引擎（Live Transcribe Speech Engine），它旨在將語音或對話實時轉錄為文字，還能夠為聽障人士提供幫助。

Live Transcribe 是谷歌於今年2月推出的一款Android應用程序，它的語音識別由谷歌最先進的Cloud Speech API提供。但是，依賴於雲引入了一些複雜性，不斷變化的網絡連接、數據成本和延遲的魯棒性等等都帶來一些考驗。因此，谷歌把它開源出來，希望開發人員在已有的基礎上進一步構建和開發。

Cloud Speech API 目前無法支持無限的音頻流，團隊目前採取了一些措施來解決這一難題，例如在達到超時之前關閉並重新啟動流式傳輸請求，這將有效減少會話中丟失的文本量。

無限流媒體音頻帶來了一大挑戰。在許多國家，網絡數據非常昂貴，並且在互聯網較差的地方，帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗，並最終在不影響精度的情況下將數據使用量減少了10 倍。

另外，由於是提供實時語音轉錄，轉錄出來的文本會隨著語音的輸入不斷發生變化，降低延遲自然十分必要。該引擎能夠大大降低延遲率，這都要歸功於它的自定義Opus 編碼器。

此外，值得一提的是，Live Transcribe 支持超過70 種語言，並能夠根據語音自動識別語種，其中也包括中文。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

谷歌開源實時語音轉錄引擎Live Transcribe Speech Engine

2019-08-18 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆