ACL2019最佳論文獎出爐劉群團隊獲最佳長論文獎
剛剛,ACL2019最佳論文出爐,共八篇文章獲獎。其中包含一篇最佳長論文、一篇最佳短論文、五篇傑出論文、一篇最佳Demo論文。值得注意的是,最佳長論文獎、最佳短論文獎以及兩篇傑出論文獎(共5篇)一作皆為華人。
其中最佳長論文獎由張文(計算所)、馮洋(計算所)、孟凡東(騰訊)、Di You(Worcester)和劉群(華為諾亞方舟)獲得。最佳短論文由俄亥俄州立大學的Nanjiang Jiang獲得。
南京理工大學夏睿團隊和港科大的Pascale Fung 團隊分別獲得了傑出論文獎。
最佳長論文獎
Bridging the Gap between Training and Inference for Neural Machine Translation,彌補神經機器翻譯在訓練和推理過程之間的缺口
論文作者:Wen Zhang, Yang Feng(馮洋), Fandong Meng, Di You and Qun Liu(劉群)
論文地址:https://arxiv.org/abs/1906.02448
獲獎理由:
- 該論文解決了seq2seq轉換中長期存在的暴露偏差問題;
- 論文所提出的解決方案是:判斷依據在“基於參考文本中的詞”和“解碼器自己的輸出中預選擇詞”兩種之間切換
- 這個方法適用於當前的teacher-forcing訓練範式,並改進了規劃抽樣;
- 論文的實驗做的非常完善,結果令人信服,並可能影響機器翻譯未來的工作;
- 該方法也適用於其他seq2seq任務。
論文摘要:
- 神經機器翻譯(NMT)是以上下文為條件來預測下一個詞,從而順序地生成目標詞。在訓練時,它以ground truth詞彙作為上下文進行預測;而在推理時,它必須從頭開始生成整個序列。反饋上下文信息的這種差異會導致誤差累積。此外,詞級訓練要求所生成的序列與ground truth序列之間嚴格匹配,這導致對不同的但合理的翻譯的過度校正。在本文中,我們在模型訓練中不僅從ground truth序列還從預測序列中來採樣上下文,其中預測序列是用句子級最優來選擇的。我們在Chinese->English 和WMT’14 English->German的翻譯任務的實驗結果表明,我們的方法可以在多個數據集上實現顯著的改進。
最佳短論文獎
Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment,“你知不知道佛羅倫薩全都是遊客?”,評價最先進的說話人承諾模型
論文作者:Nanjiang Jiang, Marie-Catherine de Marneffe
論文地址:https://www.aclweb.org/anthology/P19-1412
獲獎理由:
- 這篇論文展示出了帶有語言學知識的模型的巨大潛力
- 對基於規則的和雙向LSTM這兩種最先進的說話人承諾模型進行了系統的評價
- 論文中的語言學分析給人啟發,也展現出了系統的優勢和劣勢
論文摘要:
- 當一個人,比如Mary,問你“你知不知道佛羅倫薩全都是遊客?”,我們會認為她相信佛羅倫薩全都是遊客;但如果她問“你覺得佛羅倫薩遊客多嗎?”,我們就不會這樣認為。推斷說話人承諾(或者說事件真實度)是問答和信息提取任務中的關鍵部分。在這篇論文中,作者們探索了這樣一個假說:語言學信息的缺乏會影響說話人承諾模型中的錯誤模式。他們的驗證方式是在一個有挑戰性的自然語言數據集上分析模型錯誤的語言學關聯性。作者們在CommitmentBank 這個由自然英語對話組成的數據集上評價了兩個目前最好的說話人承諾模型。CommitmentBank 數據集已經經過了說話人承諾標註,方式是在4 種取消蘊含的環境中向著時態嵌入動詞(比如知道、認為)的補充內容進行標註。作者們發現,一個帶有語言學知識的模型能展現比基於LSTM 的模型更好的表現,這表明如果想要在這樣的有挑戰性的自然語言數據中捕捉這些信息的話,語言學知識是必不可少的。對語言學特徵的逐項分析展現出了不對稱的錯誤模式:雖然模型能在某些狀況下得到好的表現(比如否定式),但它很難泛化到更豐富的自然語言的語言學結構中(比如條件句式),這表明還有很大提升的空間。
傑出論文獎(五篇)
一:Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts,情緒-原因對的提取:文本情感分析中的一個新任務
論文作者:Rui Xia(夏睿), Zixiang Ding
論文地址:https://arxiv.org/abs/1906.01267
獲獎理由:
- 提出了一項新的有趣的任務:在文本中通過聯合學習來識別情感及原因。
- 提出一個新的有趣的模型:兩種不同類型的多任務架構,一種是任務獨立的,另一種是交互的。
- 根據相互作用的方向,實現情緒(精確度)或原因(召回)的改善。
論文摘要:
- 情緒原因提取(Emotion cause extraction ,ECE)是一項旨在提取文本中某些情緒背後潛在原因的任務,近年來由於其廣泛的應用而受到了很多關注。然而,它有兩個缺點:1)情緒必須在ECE原因提取之前進行標註,這極大地限制了它在現實場景中的應用;2)先標註情緒然後提取原因的方式忽略了它們是相互指示的事實。在這項工作中,我們提出了一項新任務:情緒- 原因對提取(emotion-cause pair extraction ,ECPE)。這個任務旨在提取文本中潛在的情緒-原因對。我們提出了兩步法來解決這個新的ECPE任務。首先通過多任務學習單獨地進行的情緒提取和原因提取,然後進行情緒-原因配對和過濾。基準情緒-原因語料庫的實驗結果證明了ECPE任務的可行性以及我們方法的有效性。
二:A Simple Theoretical Model of Importance for Summarization,文本摘要重要性的一個簡單的理論模型
論文作者:Maxime Peyrard
論文地址:https://www.aclweb.org/anthology/P19-1101
獲獎理由:
- 這篇文章討論了自動文本摘要中長期存在的深層問題:如何衡量摘要內容的適用性?
- 提出了“內容重要性”的三部分理論模型
- 提出了建設性的評估指標
- 文章中還與標準指標和人類判斷進行了比較
論文摘要:
- 摘要研究主要由經驗方法驅動,手工精心調製的系統在在標準數據集上表現良好,但其中的信息重要性卻處於隱含狀態。我們認為建立重要性(Importance)的理論模型會促進我們對任務的理解,並有助於進一步改進摘要係統。為此,我們提出了幾個簡單但嚴格定義的概念:冗餘(Redundancy),相關性(Relevance)和信息性(Informativeness)。這些概念之前只是直觀地用於摘要,而重要性是這些概念統一的定量描述。此外,我們提供了建議變量的直觀解釋,並用實驗證明了框架的潛力以知道後續工作。
三:Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems,用於面向任務的對話系統的可傳輸的多領域狀態生成器
論文作者:Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher and Pascale Fung
論文地址:https://arxiv.org/abs/1905.08743
獲獎理由:
- 本文解決了傳統但未解決的問題:對話狀態跟踪中看不見的狀態;表明可以從用戶話語中生成對話狀態;
- 新方法可擴展到大值集(large value sets)並能處理以前看不見的值;
- 除了展示最先進的結果外,本文還研究了針對新領域的few-shot學習。
論文摘要:
- 過度依賴領域本體和缺乏跨領域知識共享是對話狀態跟踪的兩個實際存在但研究較少的問題。現有方法通常在在推理過程中無法跟踪未知slot 值,且通常很難適應新領域。在本文中,我們提出了一個可轉換對話狀態生成器(Transferable Dialogue State Generator,TRADE)它使用複制機制從話語中生成對話狀態,當預測在訓練期間沒有遇到的(domain,slot,value)三元組時可以促使知識轉移。我們的模型由一個話語編碼器、slot gate、狀態生成器組成,它們跨域共享。實驗結果表明,TRADE在人類對話數據集MultiWOZ的五個領域中實現了最先進的聯合目標準確率48.62%。此外,我們通過模擬針對未見過的領域的zero-shot和few-shot對話狀態跟踪,證明了其傳輸性能。在其中一個zero-shot域中TRADE實現了60.58%的聯合目標準確率,並且能夠適應少數幾個案例而不會忘記已經訓練過的域。
四:We need to talk about standard splits,我們需要談談標準的數據集分割做法
論文作者:Kyle Gorman and Steven Bedrick
論文地址:https://wellformedness.com/papers/gorman-bedrick-2019.pdf
獲獎理由:
- 本文質疑了評估NLP模型時公認且廣泛運用的方法;
- 本文提出了幾種關於數據集的標準拆分方法;
- 本文使用POS標記說明了問題;
- 本文建議系統排名應當基於使用隨機分組的重複評估方法
論文摘要:
- 語音和語言技術的標準做法是根據在一個測試集上的性能來對系統進行排名。然而很少有研究人員用統計的方法來測試性能之間的差異是否是由偶然原因造成的,且很少有人檢查同一個數據集中分割出不同的訓練-測試集時的系統排名的穩定性。我們使用了2000年至2018年間發布的九個詞性標註器進行複現實驗,這些標註器每個都聲稱在廣泛使用的標準的分割方式上獲得了最佳性能。然而當我們使用隨機生成的訓練-測試集分割時,根本無法可靠地重現某些排名。我們在此建議使用隨機生成的分割來進行系統比較。
五:Zero-Shot Entity Linking by Reading Entity Descriptions,通過閱讀實體描述進行零樣本實體鏈接
論文作者:Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin and Honglak Lee
論文地址:https://arxiv.org/abs/1906.07348
獲獎理由:
- 本文提出了一種新穎的詞義消歧系統,專門用於提高稀少的和未見過的詞上的表現;
- 本文提出的感知選擇任務被視為連續任務,並且使用了資源的組合;
- 本文的結果富有洞察力,並且改善了現有水平。
論文摘要:
- 我們提出了zero-shot實體鏈接任務,其中mentions必須鏈接到沒有域內標記數據的未曾見過的實體。這樣做的目的是實現向高度專業化的領域的魯棒遷移,也因此我們不會假設有元數據或別名表。在這種設置中,實體僅通過文本描述進行標記,並且模型必須嚴格依賴語言理解來解析新實體。首先,我們表明對大型未標記數據進行預訓練的閱讀理解模型可用於推廣到未曾見過的實體。其次,我們提出了一種簡單有效的自適應預訓練策略,我們將其稱為域自適應預訓練(domain-adaptive pre-training ,DAP),DAP可以解決與在新域中鏈接未見實體的域遷移問題。我們在為此任務構建的新數據集上進行的實驗,顯示了DAP在強預訓練基線(包括BERT)上有所改進。本文提供了數據集和代碼。
最佳Demo 論文獎
OpenKiwi: An Open Source Framework for Quality Estimation
論文作者:Fabio Kepler, Jonay Trenous, Marcos Treviso, Miguel Vera and André FT Martins
論文地址:https://arxiv.org/abs/1902.08646
獲獎理由:
- 這是機器翻譯中第一個可以自由使用的用於執行基於神經的質量估計的框架;
- 包含了WMT 2015-18基準評估中四種最佳質量評估系統的實現;
- 包含了易於使用的API和可複現的實驗。
論文摘要:
- 我們介紹基於PyTorch的開源框架OpenKiwi,這個框架可用於翻譯質量評估。OpenKiwi支持單詞級和句子級質量評估系統的訓練和測試,實現了WMT 2015-18 質量評估比賽中的最佳系統。我們在WMT 2018(英-德SMT 和NMT)的兩個數據集上對OpenKiwi進行了基準測試,在單詞級任務達到最先進的水平,句子級任務中也能夠接近最先進的水平。
在現場的獲獎論文作者合影