Mozilla宣布Common Voice數據集已超2萬小時新增閩南語和粵語
本週早些時候,Mozilla 宣布Common Voice 數據集已經收集了超過2 萬個小時的內容,世界各地的任何人都可以使用這些內容來改進他們的語音識別軟件,幾乎是一年前的兩倍。
本次更新中,英語數據集的容量達到了71GB,而且支持更多的語言,包括Tigre、閩南語、Meadow Mari、Bengali、Toki Pona和粵語。
Mozilla 表示, Common Voice 項目非常重要,因為它允許任何人向該項目貢獻他們的聲音,這應該允許虛擬助手理解更多口音。此外,它確保大科技公司不是唯一擁有大型數據集的公司–這讓小的開發者和公司有機會建立競爭性產品和服務。
Mozilla 表示最新發布的數據集具備以下優勢:
● 新增6 種語言
新版本還具有六種新的語言。Tigre, 閩南語, Meadow Mari, Bengali, Toki Pona 和粵語。
● 擴容
現在有27種語言擁有至少100小時的語音數據。它們包括孟加拉語、泰語、巴斯克語和弗里斯蘭語。
9 種語言現在至少有500小時的語音數據。它們包括基尼亞盧旺達語(2383小時)、加泰羅尼亞語(2045小時)和斯瓦希里語(719小時)。
● 女性語音
九種語言現在都有至少45%的性別標籤為女性。它們包括馬拉地語、迪維希語和盧甘達語。
● 社區推動
加泰羅尼亞語社區推動了主要的增長。加泰羅尼亞語社區的AINA項目–巴塞羅那超級計算中心和加泰羅尼亞政府之間的合作–動員了加泰羅尼亞語使用者為”共同聲音”做出貢獻。
支持社區參與決策然而。共同語音語言代表隊(Common Voice language Rep Cohort)已經貢獻了關於最佳句子收集、語言變體的納入等方面的反饋和學習成果。