谷歌發布問答系統新語料同時發布相關挑戰賽
谷歌人工智能語言研究科學家Tom Kwiatkowski 和Michael Collins 在Google AI Blog 上發布了一篇博文,宣布發布一個新的大規模訓練和評估開放領域問答系統的語料庫Natural Questions (NQ),旨在推動人們開發出更有效、更強大的問答系統。
開放域問答(QA)是自然語言理解(NLU)中的一項基準任務,旨在模擬人們如何尋找信息,通過閱讀和理解整個文檔來找到問題的答案。給出一個用自然語言表達的問題(「為什麼天空是藍色的?」)一個問答系統應該能夠閱讀網頁(比如這個維基百科頁面)並返回正確的答案,即便這個答案有點複雜和冗長。然而,目前還沒有大量公開的可用於訓練和評估問答模型的自然生成問題(如人們尋求信息時提出的問題)及答案。這是因為,為了回答問題而收集一個高質量的數據集,不僅需要大量真實的問題源,還需要大量的人力才能找到正確的答案。
為了推動問答系統的研究進展,他們很高興地發布自然問題(Natural Questions,NQ),這是一個新的大規模訓練和評估開放領域問題回答系統的語料庫,它第一個複制了人們找到問題答案的端到端流程。NQ 很大,由30 萬個自然發生的問題以及維基百科頁面上的人工註釋答案組成,它們可以被用於訓練問答系統。他們還包括16000 個由5 個不同的註釋員標註了答案(對同一個問題)的例子,這有助於評估經過訓練的問答系統的性能。對於計算機來說,回答瑣事是很容易的。由於在NQ 中回答問題需要比回答瑣事對問題有更深入的理解,基於這些數據他們還組織了一次競賽,以幫助推動計算機自然語言理解這項研究的進展。
數據
NQ 是首先使用自然發生的查詢的數據集,它專注於通過閱讀整個頁面而不是從短段落中提取答案來查找答案。為了創建NQ,他們從用戶向谷歌搜索引擎提出的真實、匿名、聚合的查詢開始。然後,他們要求註釋員通過閱讀整個維基百科頁面來找到答案,就像問題是他們自己提出來的一樣。註釋員尋找包含推斷答案所需的所有信息的長答案,以及簡潔地用一個或多個詞語回答問題的短答案。NQ 語料庫中註釋的準確度高達90%。
NQ 旨在使問答系統能夠閱讀和理篇整個維基百科文章,這些文章可能包含問題的答案,也可能不包含問題的答案。首先,系統需要確定問題是否定義得足夠好,可以回答——許多問題都包含錯誤的假設,或者描述太模糊,無法簡明地回答。然後,他們需要確定維基百科頁面中是否有任何部分包含推斷答案所需的所有信息。他們認為,長答案識別任務——找到推斷答案所需的所有信息——需要比在知道長答案後找到短答案更深入的語言理解水平。
他們的論文「Natural Questions: a Benchmark for Question Answering Research」,已在計算語言學協會學報上發表,文章對數據收集過程進行了全面的描述。要從數據集中查看更多示例,請訪問NQ 。
挑戰賽
自然問題有一個7842個示例的盲測試集,其格式與發布的集完全相同。在此頁面上創建一個配置文件以在測試集上運行模型,並查看它們的性能。為了保持測試集的完整性,每個團隊每週只允許提交一次。你們可以在他們提供的200個示例dev set上運行測試。這個不限制次數。
要提交一個模型,您應該創建一個Docker 映像,並按照NQ 的Github 頁面上的說明將其上傳到谷歌云存儲庫。
上傳圖像後,請登錄此頁面以顯示提交表單。選擇要顯示在NQ 排行榜上的模型名稱,以及將在個人主頁上顯示的標籤。
他們希望NQ的發布以及相關的挑戰賽將有助於推動大家開發出更有效、更強大的QA系統。他們鼓勵NLU社區參與並幫助縮小當前最先進方法與人類上限之間的巨大差距。請訪問挑戰賽網站,查看排行榜並了解更多信息。
via:https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html