AI高分通過美國8年級科學考試，常識題推理題都能行

2019-09-08 Comments 0 Comment

只要60分飄過八年級科學考試，就能收穫8萬美元獎金（折合人民幣57萬元）。只不過，參加考試的“學生”，必須是個AI。在長達四年的時間裡，700多名計算機科學家參與到這項AI競賽當中，但他們的AI紛紛折戟，沒有一個能拿到及格分。但現在，歷史新紀錄來了。艾倫研究所的一個名叫Aristo的AI搞定了這件事，不僅在8年級科學考試中答對了90%以上的問題，連高三的考試，它都能答對80%！

這對於AI來說，有點鵝妹子嚶了。

語言理解+邏輯，難倒AI

雖然AI下圍棋能贏世界冠軍，打德撲還會詐唬，IBM的Watson也早在智力問答《危險邊緣（Jeopardy！）》中大殺四方，但想要通過美國八年級科學考試，對AI來說仍然是一大挑戰。

即使排除了圖片題和圖表題，科學考試中的問答依然不是簡單的自然語言理解問題，還涉及到邏輯推理乃至常識——答案並不是明顯存在於某處文本中的。

舉個例子，在考試中，有的問題比較簡單，只涉及到信息檢索：

一組協同工作以執行特定功能的組織稱為：

（1）器官（2）有機體（3）系統（4）細胞

但有的問題它長這個樣子：

什麼樣的改變會導致區域內的松鼠數量減少？

（1）食肉動物數量減少

（2）松鼠之間的競爭減弱

（3）食物增加

（4）森林火災發生次數增多

這可就不是AI光靠學習規則就能回答的問題了，其中牽扯到的邏輯推理，對人類而言或許是小菜一碟，但對AI來說，並沒有那麼簡單。

甚至還有多選問題。

就在AlphaGo震驚世界的2016年，最強的AI系統也只能在紐約州八年級科學考試中達到59.3%的準確率，遺憾未能及格。

基於Bert的Aristo

Aristo是怎樣實現突破的呢？

其實，它是站在了巨人的肩膀之上。

Aristo基於艾倫研究所的深度語境化詞表徵ELMo（NAACL 2018最佳論文）和大名鼎鼎的BERT開發（現已替換為RoBERTa），集八種類型智能體於一身，有的智能體負責在數據庫中查找答案，有的負責檢查相關概念列表（元組），還有的專門執行邏輯推理。

每個智能體都會為答案打分，而Aristo會對不同的分數進行加權，最終做出選擇決策。

在實驗測試中，研究人員讓Aristo參加了2017年到2019年各個年級的紐約州會考，結果顯示，Aristo在4年級和8年級的考試中正確率都到達了90%左右，符合紐約州教育部認定的“優秀標準”（85%）。而12年級考試的正確率則是83.54%，離優秀只差了一點點。

在此之前，這些考試數據並不在Aristo的訓練集中。

並且，現在Aristo的答題範圍不僅僅局限在文字問題中了，涉及到計算機視覺的圖表題，它也正在拿下。

在接受媒體採訪時，Aristo項目的高級經理Peter Clark表示：

Aristo的目標不僅僅是通過科學考試，而是創造一個對科學有更深入理解的系統。

雖然如從事類似研究的微軟研究員Jingjing Liu所說，實際上，Aristo仍然不具備“真正”的智能，我們無法將Aristo的能力與人類學生的推理能力相比較。但無疑，它創造了一個很好的應用方向。

比如更強大的搜索，比如個性化教育。

對了，Aristo現在有了在線Demo，可以在線調戲喲。

傳送門

Demo：

http://aristo-demo.allenai.org/

數據集：

http://data.allenai.org/ai2-science-questions/

相關論文：

https://allenai.org/papers/papers-aristo-2019.html

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。