谷歌想用AI幫言語障礙者“說話” 數據集是最大挑戰
近幾年AI領域對於殘障人士的關注越來越多,企業和技術專家致力於通過AI賦能信息無障礙。日前在“Google Solve with AI”活動上,Google AI產品經理介紹了Google AI在針對聽障和言語障礙患者人群推出的應用新進展和覆蓋情況。
據Sagar Savla介紹,目前全球有4.66 億人患耳聾或聽力障礙,這一數字在2055 年可能會增加至9 億。聽力受損使得人們很難與周圍的世界溝通交流,這是人類社會中一項嚴峻的挑戰。
而語音識別(speech recognition) 功能Live Transcribe的出現,就是為聽障人群解決現實問題。該功能可以實時自動轉錄對話,讓人們參與到原本無法參與的對話中。
目前,Live Transcribe應用程序支持超過70種語言,通過在手機屏幕上把現實生活中的語音轉錄為文本,幫助耳聾和聽障人士與他人溝通。
此外,言語障礙患者也是一個較大的群體。Google AI 產品經理Julie Cattiau在接受新浪科技採訪時提到,Google今年啟動的Euphonia項目,正在通過招募志願者,積累更大的殘障人士語言數據庫,希望最終幫助所有的言語障礙患者進行交流。
據悉,該功能通過為言語障礙患者建立語音識別模型,和能夠識別其他溝通方式( 如手勢,眨眼等)的基於計算機視覺的模型,讓機器去理解他們說話的方式,用AI語音技術幫這些患者“說話溝通”。
在活動現場,Julie Cattiau通過一段視頻,展示了通過該功能,可以相對準確地讀取出有語言障礙人士的表達。
不過,要讓AI讀懂言語障礙患者的表達,也存在一定的挑戰。Julie Cattiau在採訪中表示,現在一般的語言識別已經有大量的數據了,有很多人在使用這個平台。但是在Euphonia這個項目中,其實沒有太多人參與,很多有語言障礙的人很少願意來參與。目前,正在通過招募很多言語障礙患者志願者,讓他們朗讀一些詞彙,積累表達,這樣就能建立一些數據。
“這些數據實際上沒有那麼多,雖然我們在語音識別方面取得了很大的進展,但依然存在這樣的挑戰”,Julie Cattiau坦言。
語音識別對於患有某些健康狀況的人來說是一項至關重要的技術,但許多產品即使在最理想狀態下也表現平平。
據了解,通過和這些非營利組織的合作,Euphonia項目團隊需要記錄更多患者的聲音,然後將這些聲音來訓練人工智能,從而創建能夠識別這些語音的算法和頻譜圖。
目前,由於沒有人收集到足夠大的數據集,語音識別技術可能不適用於有語言障礙的人士,而這將是Euphonia著手研究的部分。