Masakhane開源項目希望藉助機器翻譯和AI改變非洲
據外媒VentureBeat報導,在非洲大陸的部分地區可以找到英語、阿拉伯語和法語方言,這些方言在部落、族裔群體和國界中使用,但它們並非非洲本土方言。一些語言學家估計非洲大陸上存在的語言種類為2000種或更多。這可能會阻礙通信和商業發展。今年年初,這種擔憂導致建立了Masakhane開源項目,非洲技術人員正在努力使用神經機器翻譯來翻譯非洲語言。
Kathleen Siminyu是肯尼亞盧希亞部落的成員。儘管學校和全國各地都說英語,但部落說不同的語言,這在Siminyu和她的鄰居之間造成了語言障礙。為了使社區團結在一起,她於今年早些時候加入Masakhane,積累了作為內羅畢機器學習和數據科學女性分會的聯合組織者以及AI for Development協調員的經驗。
Siminyu認為,使用機器學習翻譯語言可能是非洲AI用例增長的關鍵,並使非洲人能夠將AI應用到造福非洲人的生活中。Siminyu表示,諸如Masakhane之類的項目對於連接非洲的開發人員和研究人員社區以及建立框架以建立持續的長期合作至關重要。
她說道:“目前,我正在思考研究網絡如何在這個大陸上運作。” “我認為語言是一種障礙,如果消除這種障礙,語言將使許多非洲人能夠參與數字經濟,並最終參與人工智能經濟。我覺得……將非數字時代的人們帶入AI時代是我們的責任。”
Masakhane項目與非洲的AI研究人員和數據科學家合作,該組織旨在創建連接非洲眾多人口的神經機器翻譯。該項目是由來自南非的Jade Abbott和Laura Martinus創建的,並在Indaba深度學習和Sauti Yetu NLP Unconference上進行了演講和交談之後聚集在一起。“ i.Masakhane”的名稱在isiZulu中意為“我們共同建設”。
Masakhane與無國界譯者等組織以及學者合作,以查找語言數據集。除了將非洲本地語言翻譯成英語外,該項目還將尋求翻譯方言,例如尼日利亞的Pidgin English或非洲北部和中部的阿拉伯語。
創建針對非洲語言的機器翻譯後,該小組設想了一系列使非洲人受益的開源項目的潛力。該小組目前有來自整個非洲大陸的約60名貢獻者,但在南非、肯尼亞和尼日利亞最為活躍。項目要求每個參與者以各自的母語幫助收集數據或訓練模型。
Masakhane並不是唯一一個為非洲提供的更多機器翻譯的雄心勃勃的計劃。本週,Mozilla和德國政府部門啟動了一個 開源項目,以收集來自非洲當地語言的語音數據。
本月初,Siminyu與人工智能促進發展合作,與數據科學挑戰網站Zindi一起發起了非洲語言數據集挑戰賽。除了Siminyu和Abbott,評估數據集的顧問還來自Google AI和Facebook AI Research。挑戰參與者製作的數據集將來可能會用於訓練Masakhane的神經模型。
根據GitHub的2019年Octoverse報告,當肯尼亞和尼日利亞等國家成為全球開源項目增長最快的貢獻者團體之時,項目開始大批湧現。最近幾週,非洲技術和開發人員生態系統的增長吸引了Twitter CEO Jack Dorsey和GitHub CEO Nat Friedman等矽谷高管訪問了尼日利亞的拉各斯等非洲部分地區。
Masakhane的志願者在一次集體採訪中告訴VentureBeat,機器翻譯對非洲的好處是巨大的。受訪者來自非洲大陸的各個角落-突尼斯、尼日利亞,南非和剛果民主共和國-他們表示希望將非洲納入全球AI地圖,並找到解決非洲問題的辦法。
“我們可以解決我們的問題。我們擁有專業知識、智慧、知識,我們只需要對此承擔一些責任。”專注於尼日利亞約魯巴島的研究人員Olabiyi Samuel說。廣泛可用且準確的非洲語言機器翻譯可以使更多的非洲聲音在線上進入全球對話,或快速將教育材料從英語翻譯成非洲語言。多項研究發現,當人們以母語接受教學時,他們會學得更好。Siminyu和其他項目參與者希望Masakhane成為一系列研究項目的起點,這些研究項目可以將AI應用於非洲挑戰並改善對該大陸重要的其他部門的生活。
“我們應該考慮農業以及我們如何解決糧食問題。我們應該考慮氣候變化、我們應該考慮醫療保健……我認為語言是切入點。” 但是Siminyu也承認面臨的挑戰,她表示說:“是的,我認為路很長。”
Espoir Murhabazi居住在剛果民主共和國,主要研究班圖語Lingaga。他想更好地理解班圖語,以及機器學習如何從包含共同詞根的單詞中推斷出含義。班圖語是一種凝集性語言,意味著單詞可以包含詞幹含義和多個元素來構成每個單詞。這是解決Masakhane所面臨的語言之間的結構差異所面臨的一系列技術挑戰的示例。
在一個更有趣的層面上,Murhabazi希望看到像Masakhane這樣的項目能夠將歌曲翻譯成英語,從而使每個喜歡音樂的人都能理解歌詞。他說道:“上一次我在肯尼亞時,發現人們在夜總會和酒吧里隨著音樂跳舞,卻聽不懂意思。”
Masakhane的工作將分階段進行,首先是使用政府文件或報紙等公開可用的數據將英語翻譯成非洲語言。完成後,該小組計劃為翻譯創建單獨的基準模型。然後,他們將作品提交給世界各地的NLP頂級會議。
Abbott表示,該項目現在處於數據收集和翻譯階段,因為與構成現代互聯網主幹的歐洲語言不同,非洲語言缺乏基準和大型數據集。Masakhane項目的參與者除了創造數字經濟並允許人們用自己的語言學習之外,還希望非洲人成功創建AI項目。
許多AI研究會議在歐洲,亞洲或北美舉行,儘管行業和國家對AI人才的全球需求很大,但政府有時甚至拒絕非洲人進入該領域,即使他們正在西方國家學習。例如,當加拿大溫哥華準備迎接全球最大的AI研究會議NeurIPS時,下個月,包括Masakhane志願者在內的非洲和亞洲研究人員報告說,加拿大政府拒絕了簽證。
對於Abbott 和Martinus來說,前往非洲以外地區活動的能力(例如NeurIPS)已帶來了好處,這些好處可以直接應用於蓬勃發展的Masakhane項目。Abbott 表示,在此類事件中,其他NLP開發人員在嘗試優化模型性能時會分享100多個技巧,觀點和經驗教訓。
Abbott認為:“與在全球範圍內使用低資源語言工作的社區的聚會確實激發了我們的研究興趣。”例如,在推出後不久,Masakhane 從“ Jehovah’s Witness”的文本中查看了380種語言的JW300數據集,這是該小組參加ACL後獲得的見解。
“我們正在研究的數據集範圍是…20000個句子,這在機器翻譯世界中很小。她表示:“這個JW300數據集中的同一語言以100萬個並行句子結束,這是一個巨大的進步。”
雄心勃勃的Masakhane項目仍處於初期階段,正在尋找志願者,目前正在收集數千種語言的數據。像MySQL,Python和TensorFlow這樣的開源項目為現代互聯網和機器學習等學科的發展奠定了基礎。
如今,來自歐洲、亞洲和北美等地的開發人員仍然在開源項目貢獻方面居世界領先地位,但是,如果Masakhane及其類似項目取得成功,這可能會非洲大陸和世界其他地區帶來重大變化。