語音助手大戰時代:蘋果Siri為何這麼“笨”?
語音助手已經變得無處不在,它就在你的口袋中、家中以及汽車中。你可以使用蘋果公司的Siri設定約會提醒,命令亞馬遜公司的Alexa為你播放歌曲,或者向谷歌助理詢問當地的天氣預報。總之,人們與這些非人類助手的互動已經變得很正常。
Siri在2011年登陸iPhone,但是它的底層技術實際上要比你可能想像的陳舊。和對手的產品相比,蘋果的Siri“有些笨”。
語音助手發展史
80年前,首個能夠處理合成語音的機器由貝爾實驗室在1939年開發而成。1952年,貝爾實驗室發明了一款能夠聽懂從0到9語音數字的機器。兩年後的1954年,一台與喬治城語言學家合作的IBM機器能夠把60句俄語話翻譯成英語。
1962年,IBM開發的Shoebox設備能夠聽懂16個單詞。到了1976年,卡內基梅隆大學將機器能夠聽懂的單詞數量增加到了1000個以上。上世紀80年代中期,機器已經能夠聽懂數万個單詞。
自那之後,科學家開始在語音處理技術中融入人工智能(AI)。AI自上世紀50年代以來就已經出現。
在這些技術的積累下,我們現在才擁有了能夠聽懂我們講話的Siri、Alexa、谷歌助理以及微軟的“小娜”。
AI的不同類型
AI是計算機科學家們能夠讓語音助手更加易於使用的一大原因,但是你所理解的AI可能和它的實際含義有所不同。
“AI分為兩種類型,”密歇根州立大學計算機科學和工程教授喬伊斯·柴(Joyce Chai)表示,“強AI主要是處理能夠像人一樣推理、思考或行動的開發系統。另外一種就是弱AI,它更加專注於具體任務,也包含虛擬語音助手。我們距離實現強AI依舊還有很遠的距離。”
傳統上講,計算機要想就某件事情做出決定,它需要一套人類預定義的規則。借助AI分支機器學習,計算機通過對大量數據學習後可以自主推斷出規則。在這種情況下,他們可以學習人類如何談話和互動,從而聽懂人類的語言。這需要大量數據。
Siri聽不懂問題
哥本哈根信息技術大學副教授納塔利·舒樂特(Natalie Schluter)解釋稱,這些公司面臨的主要挑戰是通過足夠多樣化的形式獲取充足的數據,以便讓機器為更多人服務,而不是局限在某個特定人身上。舒樂特表示,在實驗室中開發出一款只能夠理解你所說話的產品可能十分有趣,但是世界上有許多方言、不同的口音以及不同的聲調。
這不只是量的問題,數據的種類也很重要。如果你訓練機器的數據只來自舊金山的白種人,那麼你訓練出的AI只能聽懂範圍非常窄的人群。
“蘋果和亞馬遜不乏才華橫溢的員工,”舒樂特表示,“但是有時我們必須確保這些員工對數據進行干預,保證他們在訓練AI時使用的數據量適當,並且來自許多不同種類的人群。”
為什麼Siri落後了?
那麼,為什麼Siri不能總是理解你提出的問題呢?
從某種程度上講,這和科學無關,而是與不同公司的實際運作情況有關。“Siri面臨的挑戰之一就是蘋果在早期承諾過多但又做不到所造成的的負面形象。”SoundHound聯合創始人兼CEO肯揚·曼哈耶爾(Keyvan Mohajer)表示。SoundHound為其他公司提供語音助手、音樂識別技術和語音工具。
曼哈耶爾稱,Siri的另外一個挑戰就是沒能真正像人們期望的那樣快速增加知識庫。亞馬遜Alexa已經從最初的少量技能發展到了數万項。蘋果也沒有真正建立起一個開發者生態系統。
另外一個可能導致Siri落後的原因就是蘋果嚴格的隱私標準。在許多語音助手盡可能多的收集用戶數據來訓練他們的AI時,蘋果一直在宣揚盡量降低這種數據收集,並進行匿名處理。儘管這可能導致語音助手的用處不夠大,但是蘋果對此不屑一顧。
“我們拒絕接受這種理由,即充分利用技術就意味著放棄你的隱私權。”蘋果CEO蒂姆·庫克(Tim Cook)去年在杜克大學畢業典禮上發表演講時稱。
此外,蘋果還是一家出了名的保密公司。“蘋果的員工在幹什麼,他們所認為真正重要的問題是什麼?我們一點也不知道,”舒樂特表示,“通常情況下,我們與穀歌、亞馬遜、微軟以及其他公司的研究人員在同一個領域工作,參加相同的會議。我們發表文章,一起合作。然而,蘋果的一切卻無從知曉。”
蘋果從谷歌挖來詹南德利亞
但是,蘋果似乎開始越來越認真對待AI了。去年,蘋果從谷歌挖來了知名計算機科學家約翰·詹南德利亞(John Giannandrea)擔任其機器學習和AI策略高級副總裁。今年稍早時候,蘋果又任命伊恩·古德菲洛(Ian Goodfellow)為其機器學習總監,後者曾是谷歌頂尖AI研究人員之一。
去年年底,風投公司Loup Ventures發布的一份研究報告顯示,Siri並不是語音助手的領頭羊,但是在追趕競爭對手。本週,蘋果又在全球開發者大會上宣布對Siri快捷方式進行更新,允許開發者進一步整合Siri,併升級了Siri的文本轉語音引擎,現在已完全使用由軟件發出的聲音。
不過,要想讓Siri變得更強大,蘋果還有一些事情要做。“第一版Siri能做12件事,”曼哈耶爾稱,“但是要想變得真正有用,你需要能夠做所有事情。這是覆蓋範圍的問題,增加更多內容,具備一個允許你增加內容,讓理解速度比線性速度更快的架構。”
曼哈耶爾指出,他認為蘋果能夠做到的最有前景的事情之一,就是圍繞著Siri建立一個非常成功的開發者社區。他認為,在語音AI領域,還沒有一家公司成功建立開發者社區。