騰訊發布AI 輔助翻譯產品:採用人機交互式機器翻譯技術
11月13日,深圳-騰訊AI Lab發布了一款AI輔助翻譯產品——「騰訊輔助翻譯」(Transmart),可滿足用戶快速翻譯的需求,用AI輔助人工翻譯提高效率和質量。該產品由騰訊AI Lab的內部團隊歷時一年完成,採用了團隊自研的人機交互式機器翻譯技術,融合神經網絡機器翻譯、統計機器翻譯、輸入法、語義理解、數據挖掘等多項前沿技術,配合億級雙語平行數據,是一款人工智能輔助翻譯互聯網落地產品,可為用戶提供實時智能翻譯輔助,幫助用戶更好更快地完成翻譯任務。
人機交互式機器翻譯技術專門針對人工翻譯過程,是人工智能輔助翻譯系統的核心技術。與一般的機器翻譯相比,人機交互式機器翻譯的重要特徵是允許用戶實時干預譯文生成,提供交互式機器翻譯、翻譯輸入法、實時譯文建議等高效交互手段以提高人工翻譯效率。騰訊輔助翻譯實現了兩個「第一」:
1、內核是國內第一個公開的交互式機器翻譯的互聯網落地產品;
2、搭載了業內第一個公開的融合機器翻譯的輔助翻譯輸入法。該產品融合了人工智能和傳統輔助翻譯技術,為用戶提供更便捷、流暢的人工翻譯體驗。
騰訊輔助翻譯具體功能亮點如下:
交互式機器翻譯
首個公開的交互式機器翻譯互聯網落地產品,根據輸入內容實時更新自動譯文,顯著提升翻譯效率。
交互式機器翻譯基於自主實現的約束翻譯解碼技術,在提升譯文準確性的同時,解碼速度也被優化到滿足互聯網環境中實時交互的要求。實時解碼速度是影響交互式機器翻譯產品落地的關鍵因素。結合已有積累,騰訊AI Lab 設計並實現了專用於人機交互的神經機器翻譯系統。與普通機器翻譯不同,交互式機器翻譯的挑戰主要在於無法預測用戶動作,從而難以通過對原文建立緩存等常規方法來加快響應速度。
輔助翻譯輸入法
首個融合機器翻譯的輔助翻譯輸入法產品,比普通輸入法更少的按鍵數,顯著減少打字時間。
普通輸入法因為難以感知翻譯場景中的上下文信息,在準確性和個性化方面還有較大的提升空間。與普通輸入法相比,輔助翻譯輸入法可利用統計機器翻譯和神經網絡機器翻譯的知識,極大提升自動組詞和推薦短語的準確性,同時使輸入預測更具個性化。
自主實現的輸入法知識挖掘算法,持續從海量互聯網數據、億級雙語句對中抽取片斷翻譯知識,以此作為輔助翻譯輸入法的基礎。在翻譯過程中,再實時融合當前句子的機器翻譯上下文信息,輔助用戶快速完成翻譯任務。
比如翻譯英文句子「Jane Zhang became the first Chinese singer to perform for Victoria’s Secret, joining the ranks of Taylor Swift and Katy Perry.」時,自動機器翻譯錯誤地把張靚穎的英文名「Jane Zhang」翻譯成了「簡·張」:
當用QQ 拼音輸入法時,需要輸入「zhangliangy」共11 個字母才能得到正確的「張靚穎」。
但是,採用輔助翻譯輸入法之後,因為有數據挖掘和機器翻譯知識的支撐,只需要輸入「zl」就可以得到期望的結果。
由此可見,輔助翻譯輸入法能夠通過減少打字敲鍵數,提升人工翻譯效率。
實時譯文建議
基於自研的神經網絡機器翻譯引擎,提供靈活、準確的實時譯文片斷智能推薦,並可根據用戶翻譯歷史和習慣不斷學習,提供更貼合用戶期待的個性化譯文建議。
因目前階段的機器翻譯技術所限,機器譯文的準確率並不高,因此提供的實時譯文建議不能太長,否則會降低人工翻譯效率。實時譯文建議的難題就在於如何提供長度適中、準確率也比較高的短語或者子句。為此,騰訊AI Lab 提出並實現了譯文智能推薦算法,綜合統計機器翻譯、神經機器翻譯等技術,盡量為用戶提供最合適的譯文建議。
比如,在翻譯句子「首屆中國國際進口博覽會即將於11 月5 日開幕。」時,智能推薦算法發現機器譯文將「開幕」一詞翻譯為「open」,但是在相對正式的文本中,翻譯為「…be held」更恰當。智能推薦預測用戶可能會在此處進行修改,就縮短了推薦片段,只推薦「…will」,方便用戶直接採用。
千萬級專業術語、億級例句參照
與傳統輔助翻譯軟件相比,智能譯文建議的來源不再局限於用戶導入的術語庫,而是全面綜合互聯網海量數據。騰訊AI Lab 從幾百TB 的互聯網文本中挖掘了數千萬的專業術語翻譯和億級雙語例句提供給用戶作為翻譯參考信息。然後以句子為維度關聯展示術語庫、例句庫等參考信息,滿足用戶多領域、多文體的翻譯需求。
輔助翻譯API 與定制化服務
為合作夥伴開放交互式機器翻譯、輔助翻譯輸入法、個性化機器翻譯API、定制化機器翻譯等多個應用程序接口,提供定制化服務。