攜手英偉達：Mozilla發佈新版Common Voice Dataset

Common Voice 是一項旨在通過眾包的方式，來教授機器人如何像真人般講話的專案。 Mozilla 基金會在幾年前發起的該專案，現已迎來與晶元巨頭英偉達的最新合作。 其旨在允許志願者為世界上最大的開放式通用語音數據集貢獻一份力，從而推動語音合成與識別技術的發展。

（來自：Mozilla）

隨著新版公共語音數據集的發佈，可知 Common Voice 語料庫已擁有超過 13000 小時的眾包語音數據。

與上一版相比，其新增了 4622 小時的內容，並且迎來了對 16 種語言的支援，包括：

巴薩語、斯洛伐克語、北庫爾德語、保加利亞文、哈薩克語、巴什基爾文、加利西亞語、維吾爾文、亞美尼亞語、白俄羅斯文、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克語、亞塞拜然語、以及豪薩語。

目前 Common Voice 已經收集了 76 種語言的公共語音資料庫，以及超過 18.2 萬份獨特的聲音，貢獻者社區在過去六個月內迎來了 25% 的增長。

（傳送門：NVIDIA）

語音時長 13905 小時，較上一版本增加了 4622 小時。排名前五的語言分別為英語（2630 小時）、基尼亞盧安達語（2260 小時）、德語（1040 小時）、加泰羅尼亞語（920 小時）、以及世界語（840 小時）。

增長百分比最高的是泰語（從 12 小時到 250 小時、增長近 20 倍），盧干達語（從 8 小時到 80 小時、增長 9 倍），世界語（從 100 小時到 840 小時、增長超 7 倍），泰米爾語（從 24 小時到 220 小時、增長超 8 倍）。

感興趣的朋友，可移步至 Common Voice 官網（傳送門），為這個公共語音數據集貢獻自己的一份力量。或者前往GitHub儲存庫，獲取特定的元數據集和使用說明。

最後，作為Mozilla與 NVIDIA 的一個合作專案，相關訓練模型也可通過Nvidia NeMo免費獲得，後者是該公司打造的用於構建語音辨識和對話模型的工具包。

WONGCW 網誌