AI高分通過美國8年級科學考試,常識題推理題都能行
只要60分飄過八年級科學考試,就能收穫8萬美元獎金(折合人民幣57萬元)。只不過,參加考試的“學生”,必須是個AI。在長達四年的時間裡,700多名計算機科學家參與到這項AI競賽當中,但他們的AI紛紛折戟,沒有一個能拿到及格分。但現在,歷史新紀錄來了。艾倫研究所的一個名叫Aristo的AI搞定了這件事,不僅在8年級科學考試中答對了90%以上的問題,連高三的考試,它都能答對80%!
這對於AI來說,有點鵝妹子嚶了。
語言理解+邏輯,難倒AI
雖然AI下圍棋能贏世界冠軍,打德撲還會詐唬,IBM的Watson也早在智力問答《危險邊緣(Jeopardy!)》中大殺四方,但想要通過美國八年級科學考試,對AI來說仍然是一大挑戰。
即使排除了圖片題和圖表題,科學考試中的問答依然不是簡單的自然語言理解問題,還涉及到邏輯推理乃至常識——答案並不是明顯存在於某處文本中的。
舉個例子,在考試中,有的問題比較簡單,只涉及到信息檢索:
一組協同工作以執行特定功能的組織稱為:
(1)器官(2)有機體(3)系統(4)細胞
但有的問題它長這個樣子:
什麼樣的改變會導致區域內的松鼠數量減少?
(1)食肉動物數量減少
(2)松鼠之間的競爭減弱
(3)食物增加
(4)森林火災發生次數增多
這可就不是AI光靠學習規則就能回答的問題了,其中牽扯到的邏輯推理,對人類而言或許是小菜一碟,但對AI來說,並沒有那麼簡單。
甚至還有多選問題。
就在AlphaGo震驚世界的2016年,最強的AI系統也只能在紐約州八年級科學考試中達到59.3%的準確率,遺憾未能及格。
基於Bert的Aristo
Aristo是怎樣實現突破的呢?
其實,它是站在了巨人的肩膀之上。
Aristo基於艾倫研究所的深度語境化詞表徵ELMo(NAACL 2018最佳論文)和大名鼎鼎的BERT開發(現已替換為RoBERTa),集八種類型智能體於一身,有的智能體負責在數據庫中查找答案,有的負責檢查相關概念列表(元組),還有的專門執行邏輯推理。
每個智能體都會為答案打分,而Aristo會對不同的分數進行加權,最終做出選擇決策。
在實驗測試中,研究人員讓Aristo參加了2017年到2019年各個年級的紐約州會考,結果顯示,Aristo在4年級和8年級的考試中正確率都到達了90%左右,符合紐約州教育部認定的“優秀標準”(85%)。而12年級考試的正確率則是83.54%,離優秀只差了一點點。
在此之前,這些考試數據並不在Aristo的訓練集中。
並且,現在Aristo的答題範圍不僅僅局限在文字問題中了,涉及到計算機視覺的圖表題,它也正在拿下。
在接受媒體採訪時,Aristo項目的高級經理Peter Clark表示:
Aristo的目標不僅僅是通過科學考試,而是創造一個對科學有更深入理解的系統。
雖然如從事類似研究的微軟研究員Jingjing Liu所說,實際上,Aristo仍然不具備“真正”的智能,我們無法將Aristo的能力與人類學生的推理能力相比較。但無疑,它創造了一個很好的應用方向。
比如更強大的搜索,比如個性化教育。
對了,Aristo現在有了在線Demo,可以在線調戲喲。
傳送門
Demo:
http://aristo-demo.allenai.org/
數據集:
http://data.allenai.org/ai2-science-questions/
相關論文: