Mozilla宣布Common Voice數據集已超2萬小時新增閩南語和粵語

2022-05-01 Comments 0 Comment

本週早些時候，Mozilla 宣布Common Voice 數據集已經收集了超過2 萬個小時的內容，世界各地的任何人都可以使用這些內容來改進他們的語音識別軟件，幾乎是一年前的兩倍。

本次更新中，英語數據集的容量達到了71GB，而且支持更多的語言，包括Tigre、閩南語、Meadow Mari、Bengali、Toki Pona和粵語。

Mozilla 表示， Common Voice 項目非常重要，因為它允許任何人向該項目貢獻他們的聲音，這應該允許虛擬助手理解更多口音。此外，它確保大科技公司不是唯一擁有大型數據集的公司–這讓小的開發者和公司有機會建立競爭性產品和服務。

Mozilla 表示最新發布的數據集具備以下優勢：

● 新增6 種語言
新版本還具有六種新的語言。Tigre, 閩南語, Meadow Mari, Bengali, Toki Pona 和粵語。
● 擴容
現在有27種語言擁有至少100小時的語音數據。它們包括孟加拉語、泰語、巴斯克語和弗里斯蘭語。
9 種語言現在至少有500小時的語音數據。它們包括基尼亞盧旺達語（2383小時）、加泰羅尼亞語（2045小時）和斯瓦希里語（719小時）。
● 女性語音
九種語言現在都有至少45%的性別標籤為女性。它們包括馬拉地語、迪維希語和盧甘達語。
● 社區推動
加泰羅尼亞語社區推動了主要的增長。加泰羅尼亞語社區的AINA項目–巴塞羅那超級計算中心和加泰羅尼亞政府之間的合作–動員了加泰羅尼亞語使用者為”共同聲音”做出貢獻。
支持社區參與決策然而。共同語音語言代表隊（Common Voice language Rep Cohort）已經貢獻了關於最佳句子收集、語言變體的納入等方面的反饋和學習成果。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

Mozilla宣布Common Voice數據集已超2萬小時新增閩南語和粵語

2022-05-01 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆