Mozilla開源語音收集計劃Common Voice擴大支持漢語普通話

2019-05-10 Comments 0 Comment

開發開源Firefox瀏覽器的非營利組織Mozilla宣布，其所推動地最大語音數據收集計劃—— Common Voice平台已正式支持漢語普通話。在廣大的Mozilla社群及語言專傢伙伴的辛勤努力下，從現在開始，網友可到Common Voice的簡體中文網站（https://voice.mozilla.org/zh-CN）錄製音頻。

● Mozilla 開始收集大陸地區漢語語音數據，更進一步充實其公開語音數據集

● 現已收集27 種不同語言的語音文件，並將再擴大支持72 種語言

● Common Voice 是史上最大的開源語音轉錄文字數據集，其最新發布的數據庫包括來自超過4.2 萬貢獻者的18 種語言錄製的語音文件，總長近1,400 小時

語音接口是互聯網未來的大勢所趨。車載語音助理、智能手錶、智能燈泡等等……內建語音識別技術的設備可謂與日俱增。然而，相關技術的創新仍面臨著重大阻礙：有意打造語音輔助方案的創新公司、研究人員或各種開發者都需取得大量轉錄為文字的語音數據，才能訓練機器學習的算法。但現有公開語音數據集的語音數據量與支持語種數都極其有限，而私有的語音數據不但僅掌握在少數幾家公司手中，其費用還很高。

因此，Mozilla自2017年6月起展開Common Voice計劃，希望建立全球化的開源語音數據庫，以應對語音接口的發展需求並突破現階段的市場局限。Mozilla認為，此類接口不該只把持在少數幾家握有語音服務技術的廠商手中，而且，希望能讓用戶以自己的語言和熟悉的腔調來吸收和了解信息。

已收集包括漢語（普通話）在內的27 種語音數據

Common Voice 在2018 年6 月開始收集多語言語音數據。從那時起，此項目便不斷壯大，變得更全球化、更具包容性。在過去10 個月間，大批的熱血貢獻者踴躍響應，已在Common Voice 網站上發起27 種語言的語音文件收集計劃，另外還有高達72 種語言的錄音計劃正在進行中。

最新加入的語言是漢語（普通話）。現在，世界各地的網友都可以到https://voice.mozilla.org/zh-CN網站“捐獻聲音”，或驗證其他人的錄音。

語音貢獻者可以選擇保留項目記錄，以掌握自己的錄音記錄。此外，還可以選擇提供人口特徵信息，以協助Mozilla 改善用以訓練語音識別引擎的語音數據。

如Common Voice收集的其他語言數據，Mozilla對於漢語（普通話）的目標是要累積約1萬小時的通過驗證的音頻，因為1萬小時的音頻量才足以訓練出完備的語音識別系統，這樣大家才能共同推動語音識別技術的進展。無論在上班途中、公交車上、午休時間、家裡，還是與親朋好友齊聚一堂時，都可以通過voice.mozilla.org網站或iOS應用，只要有手機或計算機，你就能捐出聲音或驗證其他人的音頻。

Mozilla 開源創新計劃總監George Roter 表示：“就算一個人只錄或聽幾秒鐘的音頻，但如果貢獻者多達數十萬，加起來的數據量就會非常驚人！當更多人都願意出一份力時，這套語音數據集的價值就能更快提升。”

發布多語言語音數據集

Mozilla 將不忘初衷，繼續充實語音數據集的內涵，使其成為人人可用的公共資源。並已於今年二月發布第一批的多語言語音數據集，其中共涵蓋18 種語言的錄音文件，包括：英語、法語、德語和漢語（台灣地區）等廣泛通行的語言，以及威爾士語及卡比爾語等較為冷門的語言。Common Voice 至今已收集超過4.2 萬人貢獻的錄音，總長度約1,400 小時，且語音數據量仍在持續增長中。

在此數據集發布後，Common Voice的規模已超越其他同類型的語音數據集，並已將數万人的錄音文件及對應文字開放給公眾使用（採CC0授權）。任何人都可到Common Voice網站下載完整的語音數據集。

George Roter 進一步表示：“Mozilla 致力於促進更加多元化的創新語音科技生態系的發展。我們不但希望能自行推出語音技術的產品，也立志傾力支持研究人員及小型企業的發展，在建立全球最大公共的多語言語音數據集的過程中，我們很榮幸得到越來越多人的幫助，也很感謝志願者們的熱情相挺，讓我們成功開展對於漢語普通話的支持。”

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Mozilla開源語音收集計劃Common Voice擴大支持漢語普通話

2019-05-10 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆