谷歌提出可量化評估NLG模型性能的BLEURT指標

2020-05-27 Comments 0 Comment

過去幾年，自然語言生成（NLG）模型得到了巨大的發展，通讀、總結文本、以及參與對話的能力都已大幅提升。為便於研究團隊評估不同NLG模型的性能，搜索巨頭谷歌（Google）特地提出了一個名叫BLEURT量化指標。通常情況下，我們可以通過人工和自動化流程來評估NLG模型，比如雙語評估學習（BLEU）。前者的缺點是太費人力，後者的優勢是具有更高的準確性。

（來自：MIT Tech Review）

谷歌研究人員稱，BLEURT 是一種針對自然語言模型（NLG）的全新自動化評估指標，可為不同模型打出可靠的評分，結果接近、甚至超越了人類指標。

據悉，BLEURT 的核心為機器學習。對於任何ML 模型，最重要的就是訓練用的數據有多豐富。然而對於NLG 模型來說，其訓練數據是相當有限的。

實際上，在WMT Metrics Task 數據集中（目前人類匯聚的最大集合），也僅收集了涵蓋新聞領域的大約26 萬數據。

若將之用作唯一的訓練數據集，那WMT 度量任務數據集將失去訓練模型的通用性和魯棒性。為攻克這一問題，研究人員採取了轉移學習的方法。

首先，研究團隊使用了BERT 的上下文詞，且其已順利聚合到Yis 和BERTscore 等NLG 量化工具中。

接著，研究人員介紹了一種新穎的預訓練方案，以提升BLEURT 的魯棒性和準確度，同時有助於應對模型的質量偏移。

在微調人工量化標準前，BLEURT 借助了數以百萬計的合成句子，對NLG 模型展開了“預熱”訓練。其通過來自維基百科的句子、加上隨機擾動來生成訓練數據。

研究團隊未手機人工評分，而是使用了相關文獻（含BLEU）中的指標與模型集合，能夠以極低的代價來擴大訓練示例的數量，然後對BLEURT進行了兩次預訓練。

其一階段目標是語言建模，二階段目標則是評估NLG 模型，此後團隊在WMT 指標數據集上對模型進行了微調。一旦受過訓練，BLEURT 就會試著與競爭方案對抗，以證明其由於當前的指標。

據悉，BLUERT在Python 3上運行，且依賴於TensorFlow，詳情可參閱GitHub項目介紹頁（傳送門）。有關這項研究的詳情，可翻看ArXiv上的預印本。

最後，研究人員還總結了其它結果，比如BLEURT 試圖“捕獲表面重疊以外的NLG 質量”，該指標在兩項學術基準評估中獲得了SOTA 的評價。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

谷歌提出可量化評估NLG模型性能的BLEURT指標

2020-05-27 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆