Mozilla通用語音更新將幫助訓練基於語音的網頁瀏覽
Mozilla今天發布了Common Voice的最新版本,該版本是其轉錄語音數據的開源集合,供初創公司、研究人員和愛好者構建語音功能的應用、服務和設備。Common Voice現在包含54種不同語言的超過7226小時的總貢獻語音數據,比2019年2月18種語言的1400小時有所增加。
Common Voice不僅包括語音片段,還包括對訓練語音引擎有用的自願貢獻的元數據,如發言者的年齡、性別和口音。它被設計為與DeepSpeech集成,DeepSpeech是一套開源的語音到文本、文本到語音引擎,以及由Mozilla的機器學習小組維護的訓練模型。
收集Common Voice中超過550萬個片段需要大量的工作,不過,到目前為止,在7226個小時中,有5591個小時被該項目貢獻者確認為有效。而根據Mozilla的數據,Common Voice中的五種語言–英語、德語、法語、意大利語和西班牙語現在已經有超過5000名獨特的使用者,而七種語言英語、德語、法語、卡比勒語、加泰羅尼亞語、西班牙語和基尼亞盧旺達語則有超過500小時的記錄。
今天還發布了Mozilla有史以來第一個數據集目標段,旨在為特定目的和用例收集語音數據。這個細分市場包括數字”0 “到”9″,以及”是”、”不是”、”嘿”和”火狐”等詞語,共有1.1萬人在18種語言中說了120個小時。
Common Voice刷新之後,DeepSpeech進行了重大更新,納入了迄今為止最快的開源語音識別模型之一。最新版本增加了對TensorFlow Lite的支持,TensorFlow Lite是谷歌TensorFlow機器學習框架的發行版,針對計算受限的移動和嵌入式設備進行了優化,並將DeepSpeech的內存消耗減少了22倍,同時將其啟動速度提升了500多倍。
Common Voice和DeepSpeech都為Mozilla項目工作提供了參考,比如Firefox Voice,這是一個為Firefox增加語音識別支持的瀏覽器擴展。目前,Firefox Voice可以理解”天氣如何”和”查找Gmail標籤”等命令,但目標是促進僅使用語音與網站進行”有意義的互動”。