LaBSE:一套支持109種語言的新語言不可知論內嵌模型
據外媒報導,自transformer架構誕生以來,自然語言處理(NLP)和自然語言生成(NLG)領域就受益匪淺。Transformer模型如BERT及其衍生物已經被應用到一系列領域中,包括情緒分析和分類。近年來,為了讓這些模型變得更加健全,相關人員付出了大量的努力,尤其是通過擴展蒙面語言模型(MLM)的預培訓並將其跟翻譯語言建模(TLM)結合起來從而使得模型變為語言不可知論。儘管事實證明,這種MLM和TLM的聯繫有助於下游任務的微調,但截止到目前,它們還沒有直接生成多語言句子嵌入,而這對於翻譯任務是至關重要的。
考慮到這一點,谷歌的研究人員現在推出了一種多語言BERT嵌入模型,叫做“語言不可知論BERT句子嵌入(Language-agnostic BERT Sentence Embedding,簡稱LaBSE)”,它在一個單一模型上為109種語言生成語言不可知論的跨語言句子嵌入。簡單地說,LaBSE將MLM和TLM預培訓結合在一個12層transformer上,據悉,該轉換器包含有500,000個帶有使用雙向雙編碼器完成的翻譯排序任務的token。
為了訓練這個模型,研究人員使用了170億個單語句子和60億對雙語句子。一旦訓練完成就會使用Tatoeba語料庫對LaBSE進行評估,據悉,該模型的任務是利用餘弦距離為給定的句子找到最近鄰的翻譯。
結果表明,即使在訓練過程中沒有數據可用的低資源語言上該模型也是有效的。除此之外,LaBSE還在多個並行文本或雙語文本檢索任務上建立了一個藝術新狀態(SOTA)。具體地說,隨著語言數量的增加,傳統的模型如m~USE和LASER模型,其在平均精度上表現出比LaBSE更明顯的下降。
據了解,LaBSE的潛在應用包括從網絡中挖掘並行文本。研究人員則將其應用到CommonCrawl上,進而從LaBSE預處理和編碼的77億英語句子庫中尋找潛在的翻譯。有了這些嵌入,翻譯模型顯示出了極高的準確性,其分數達到了35.7和27.2。谷歌寫道:“這跟目前在高質量並行數據上訓練的先進模型只有幾分之遙。”
現在,這個預訓練模型可以在TensorFlow Hub找到。