谷歌發布自然問答數據集Natural Questions
Google發布用於訓練和評估開放領域(Open-domain)問答系統的大型語料庫Natural Questions(NQ)。該數據集包含了30萬個自然產生的問題和對應的回答註釋,每個回答都是人工從維基百科頁面找到的答案。另外,Google還舉辦了挑戰活動,以NQ數據集訓練的模型性能來生成挑戰者的排行榜。
開放式問答(QA)是自然語言理解(NLU)中的一項基準任務,旨在模仿人們如何查找信息,通過對問題的閱讀和理解找到問題的答案。例如,用自然語言表達的問題(“為什麼天是藍色的?”),QA系統應該能夠閱讀網頁(比如這個維基百科頁面Diffuse sky radiation)並返回正確的答案,雖然答案有點複雜和冗長。
然而,目前並沒有大量公開可用的自然產生問題(即尋求信息的人提出的問題)和可用於訓練評估QA 模型的答案。原因是匯集用於問答的高質量數據集,需要大量的實際問題來源以及尋找問題答案的大量人力。
而現在谷歌發布的自然問答數據集Natural Questions 可以說是填補了這部分資料的空白。簡單來說,就是Google 收集自家搜尋引擎真實的問題查詢,搭配維基百科的資料,為問答系統提供訓練資料集。這個過程中,進行匿名查詢的註釋者需要閱讀整個維基百科頁面,來尋找答案並提供兩種答案註釋,包括涵蓋所有資訊的長答案和簡潔的短答案。
目前,該數據集收集了30萬個自然產生的問題與答案,註釋的品質精準度達90%,另外,Natural Questions還包括1.6萬個範例,每個問題的答案由5個不同的註釋者提供。Google表示,這種資料可以用來評估問答系統的性能。