哪家的語音助手支持語言種類最多?
與大眾認知相反,英語其實並不是全球使用人數最多的語言,甚至連第二名都排不上。事實上,排在第一位的是漢語,第二是西班牙語,西日耳曼語排在第三位,接下來是印地語、阿拉伯語、葡萄牙語、孟加拉語和俄語。
更令人意想不到的是,Google Assistant、蘋果的Siri、亞馬遜的Alexa和微軟的Cortana雖然已經無比強大,但其實只能識別這些語言當中相對較少的一部分。直到今年秋天,三星的Bixby才可以識別德語、法語、意大利語和西班牙語,而這些語言的全球使用總人數高達6.16億人。Cortana更是花了好幾年時間才精通西班牙語、法語和葡萄牙語。
為什麼識別新語言的進度如此緩慢?究其原因,主要還是訓練語音識別算法的技術進度緩慢,事實上,AI語音助手比我們表面看起來的要復雜得多。
為什麼支持一門新語言如此艱難?
給語音助手添加語言支持是一個多管齊下的過程,這需要在語音識別和語音合成方面進行大量的研發。就語音識別而言,首先要將語音轉換成文本,接下來再進行自然語言處理。
如今,大多數語音識別系統都藉助於深度神經網絡(deep neural networks)來預測音素,或感知區分不同的聲音單位(例如,英語單詞pad、pat 和bad 中的p、b和d)。以前的自動語音識別(ASR)技術依賴於手工調整的統計模型來計算單詞組合在短語中出現的概率,而深度神經網絡則不同,它可以將聲音(以分段譜圖或聲音頻率譜的表示形式)轉換成字符。這不僅降低了錯誤率,而且在很大程度上替代了人工監督。
但是,只進行基礎的語言理解是不夠的。如果沒有本地化,語音助手就無法了解不同語言所承載的文化的特性。Next IT 首席技術創新官Joe Dumoulin 在接受Ars Technica 採訪時表示,為一門新語言構建一個查詢理解模塊需要30至90天,具體時間取決於該模塊需要涵蓋多少意圖。即便是谷歌和亞馬遜推出的市場銷量領先的智能音箱,也很難聽懂帶有某些口音的語言。由Vocalize.ai 進行的一項測試發現,蘋果的HomePod 和亞馬遜的Echo 只能捕捉到78%的中文單詞,對英語和印度語的識別率則為94%。
不同語言的語法結構差異很大。例如,在英語中,形容詞通常出現在名詞之前,副詞可以出現在名詞之前,也可以出現在名詞之後。如果有人說“starfish”並且讓語音助手來識別的話,很容易將“star”與“fish”理解為形容詞或單個名詞。語言裡含有各種術語,語音助手必須能適應並學會辨別不同的習慣用語。
學一門語言已經夠難了。亞馬遜Alexa AI 部門的研究人員在2018年8月描述了實際使用中的一個典型問題。在與助手聊天過程中,用戶經常在連續的問題中調用多個語音應用程序。這些應用程序需要重複調用變量——例如“town”和“city”。如果有人問了方向,接著又問了一個關於餐館位置的問題,一個訓練有素的語音助手需要能夠弄清楚在回答這個問題時應該參考哪條線索。然後,語音助手在分析之後必須做出準確回應,其中的技術難度非常大。
各大語音助手支持的語言種類有哪些?
1. Google Assistant
今年1月,Google Assistant 新增了20多種語言,在各大語音助手中,它所能理解的語言數量位居榜首。目前,Google Assistant 已經在80個國家的近30種語言中被廣泛使用,而在2017年,這一數字僅為8種語言和14個國家。其目前支持的語言包括:
- 阿拉伯語(埃及、沙特阿拉伯)、孟加拉語、中文(繁體)、丹麥語、荷蘭語、英語(澳大利亞、加拿大、印度、印度尼西亞、愛爾蘭、菲律賓、新加坡、泰國、英國、美國)、法語(加拿大、法國)、德語(奧地利、德國)、古吉拉特語、北印度語、印尼語、埃納德語、意大利語、日語、韓語、馬拉雅拉姆語、馬拉地語、挪威語、波蘭語、葡萄牙語(巴西)、俄語、西班牙語(阿根廷、智利、哥倫比亞、秘魯)、瑞典語、泰米爾語、泰盧固語、泰語、土耳其語、烏爾都語
2. 蘋果Siri
直到今年1月,蘋果的Siri 在支持語言的廣度方面一直領先於Google Assistant。目前,它支持36個國家的21種語言,其中包括:
- 阿拉伯語、中文(普通話、上海話和廣東話)、丹麥語、荷蘭語、英語、芬蘭語、法語、德語、希伯來語、意大利語、日語、韓語、馬來語、挪威語、葡萄牙語、俄語、西班牙語、瑞典語、泰語、土耳其語
Siri在澳大利亞和英國也有獨特的本地化語音功能,畫外音藝術家Karen Jacobsen 曾在澳大利亞語中提供台詞和短語,前科技記者Jon Briggs 則提供了他的聲音。
3.微軟Cortana
Cortana於2013年4月在微軟的Build developer大會上首次亮相,後來又通過與亞馬遜的合作,在Windows 10、耳機、智能揚聲器、Android、iOS、Xbox One,甚至Alexa上發布。Cortana支持的語言可能不及谷歌Assistant和Siri那麼多。儘管如此,六年來它已經取得了長足的進步。以下是它能識別的語言:
- 中文(簡體)、英語(澳大利亞、加拿大、新西蘭、印度、英國、美國)、法語(加拿大、法國)、德語、意大利語、日語、葡萄牙語(巴西)、墨西哥語、西班牙語
和Siri 一樣,Cortana 也進行了廣泛的本地化處理。
4.亞馬遜Alexa
亞馬遜Alexa
Alexa 可以在41個國家的150多種產品上使用,但它理解的語言是語音助手中最少的,包括:
- 英語(澳大利亞、加拿大、印度、英國和美國)、法語(加拿大、法國)、德語、日語、墨西哥語、西班牙語
公平地說,亞馬遜已經煞費苦心地在新的地區進行本地化處理。Alexa 去年進入印度市場後,推出了一種“全新的英語語音”,能聽懂當地發音,並能用當地發音交談。
亞馬遜正在通過眾包的方式逐步擴展語言支持種類,有超過1萬名工程師正在研究其NLP 協議棧的各種組件。去年,亞馬遜發布了一項名為“Cleo”的遊戲化功能,用於獎勵那些用當地語言和方言(如普通話、印地語、泰米爾語、馬拉地語、卡納達語、孟加拉語、泰盧谷語和古吉拉特邦語)重複短語的用戶。
5.三星Bixby
三星Bixby
三星的Bixby 內置在三星的旗艦和中端Galaxy 智能手機系列以及即將推出的Galaxy 家庭智能揚聲器中。Bixby 在全球200個市場上都有銷售,但只支持這些國家的少數幾種語言:
- 英語、中文、德語、法語、意大利語、韓語、西班牙語
三星在歷史上曾因NLP 技術不完善而受挫。《華爾街日報》在2017年3月報導稱,三星被迫推遲了英文版Bixby 的發布,因為Bixby 無法理解某些語法。