百度有一種新的技巧可以教AI語言的含義
據《麻省理工科技評論》(MIT Technology Review)消息,本月初,中國科技巨頭百度在一場持續的人工智能競爭中悄悄擊敗了微軟和谷歌。具體來說,百度AI算法ERNIE在通用語言理解評估測試(General Language Understanding Evaluation,GLUE)上領先其競爭對手。
GLUE是AI系統理解人類語言的良好標準。它由九種不同的測試組成,這些測試包括選擇句子中的人員和組織的名稱以及弄清楚“ it”等代詞在存在多個潛在先行詞時的含義。因此,在GLUE上得分很高的語言模型可以處理各種閱讀理解任務。在滿分100分中,此前在GLUE 測試的平均分為87。百度現在是第一個憑藉其模型ERNIE獲得超過90分的團隊。
GLUE的公開排行榜在不斷變化,另外一支團隊很可能很快會超越百度。但值得注意的是,百度的成就說明了AI研究如何從眾多貢獻者中受益。百度的研究人員必須開發一種專門針對中文的技術來構建ERNIE(代表“知識增強的語義表示模型”)。碰巧的是,同樣的技術也使它更好地理解英語。
在Transformer的雙向編碼器表示(BERT)於2018年末創建之前,自然語言模型並不是那麼好。他們擅長預測句子中的下一個單詞(因此非常適用於自動完成功能),但即使經過一小段時間,他們也無法承受任何思路。這是因為它們不理解含義,例如“它”一詞可能指的是什麼。
但是BERT改變了這一點。先前的模型學會了僅通過考慮單詞之前或之後出現的上下文來預測和解釋單詞的含義,而不能同時考慮兩者。換句話說,它們是單向的。
相比之下,BERT一次考慮單詞前後的上下文,使其雙向。它使用稱為“掩碼”的技術來執行此操作。在給定的文本段落中,BERT隨機隱藏15%的單詞,然後嘗試從其餘單詞中進行預測。這使得它可以做出更準確的預測,因為它具有兩倍的工作線索。例如,在“男子去___購買牛奶”一句中,句子的開頭和結尾都提示了缺失的單詞。___是您可以去的地方,也是可以購買牛奶的地方。
使用掩碼是對自然語言任務進行重大改進背後的核心創新之一,並且是諸如OpenAI著名的GPT-2之類的模型可以撰寫極具說服力的散文而又不偏離中心論題的部分原因。
百度研究人員開始開發自己的語言模型時,他們希望以掩碼技術為基礎。但是他們意識到他們需要進行調整以適應中文。在英語中,單詞充當語義單元,這意味著完全脫離上下文的單詞仍然包含含義。中文字符不能說相同。儘管某些字符確實具有內在含義,例如火、水或木,但大多數字符只有與其他人串在一起才可以。例如,根據匹配,字符靈可以表示聰明(機靈)或靈魂(靈魂)。一旦分開,專有名詞中的字符(例如,波士頓或美國)就不是同一件事。
因此,研究人員在新版本的掩碼上對ERNIE進行了培訓,該掩碼可隱藏字符串而不是單個字符。他們還訓練了它以區分有意義的字符串和隨機的字符串,從而可以相應地掩蓋正確的字符組合。結果,ERNIE對單詞如何用中文編碼信息有了更深入的了解,並且在預測缺失片段方面更加準確。事實證明,這對於從文本文檔進行翻譯和信息檢索等應用程序非常有用。
研究人員很快發現這種方法實際上實際上也適用於英語。英語中具有類似的單詞字符串,這些單詞表示的含義與其部分和的總和不同。無法通過將“ Harry Potter”等專有名詞和“ chip off the old block”之類的表達式分隔來有意義地解析它們包含的意思。