這個AI系統可輕鬆通過高三科學考試但依然沒高中生聰明
上週,美國艾倫人工智能研究所(Allen Institute For Artificial Intelligence)的研究人員在一篇新論文中證明,他們設計的AI系統可以在初二科學測試的多項選擇題中給出90%以上的正確答案,在高三科學測試中也表現得相當好,正確率超過80%。
這個名為Aristo的AI系統參加了紐約攝政學院科學考試(New York Regents Science Exam,紐約州學生標準會考),但它可以享受某些優待,比如不需要解答涉及查看圖表的問題。儘管如此,研究人員在不同版本和不同年級的考試中測試了該程序,發現其表現相當穩定,絕對能與最好的學生一較高低。
Aristo展示了AI技術的高速發展歷程。該論文的作者指出,就在2016年,AI領域還沒有任何AI系統能夠在類似的初二科學考試中獲得及格成績。但自2016年以來,在AI領域發生了很多事情,尤其是用於這項任務的自然語言處理方面。
研究人員已經開發出新的方法來構建AI,使其能夠更好地完成自然語言處理任務,使AI系統能夠產生聽起來更自然的人類文本,並編寫新聞故事或詩歌。隨著AI在生成假面孔或視頻、“增強”真實圖像以及識別對象和麵孔的能力方面變得更加複雜,計算機視覺已經得到了極大的改善。
AI系統已經征服了在線多人戰略遊戲。隨著投資大量湧入該領域,今年搶眼的項目通常比幾年前的項目成本高得多。現在,進步的浪潮把我們帶到了能夠在科學測試中擊敗初二學生的AI系統中。
AI技術的快速發展使許多專家難以預測該領域的未來前景,他們中有些人預測相當於人類水平的AI出現可能只需10年或20年。但隨著AI系統變得越來越強大,它們將帶來更多挑戰。當它們達到人類水平的能力時,錯誤指定或設計不良的程序可能帶來災難性的風險。不過,這樣的結果是令人興奮的,它們也提醒我們,我們正在AI方面取得驚人的成就,這也許比我們制定AI政策、確保安全速度更快。
對這樣的項目的常見的批評是,AI只是反芻信息,而不是真正的思考。幾年前,這似乎是對AI系統所能做的事情的準確總結。當單詞相互關聯時,它們可以記住,但卻不能回答任何涉及更深層次概念理解的問題。這種情況一直在改變。當今最先進的AI系統仍然會犯概念性錯誤,但已經少了很多。
看看紐約攝政學院科學考試的這些問題(來自艾倫研究所的論文)就可以清楚地看出,要想在這次考試中取得好成績,你必須做許多類似概念推理的事情:
1)哪種設備能最好地分離鐵屑和黑胡椒的混合物?(1)磁鐵(2)濾紙(3)三臂天平(4)伏特計。
2)橡皮筋振動時會產生哪種形式的能量?(1)化學能量(2)光能(3)電能(4)聲能。
3)因為銅屬於金屬,所以它(1)在室溫下是液態的(2)不與其他物質發生反應(3)是不良導體(4)是良好的熱導體。
4)蘋果樹的哪個過程主要是細胞分裂的結果?(1)生長(2)光合作用(3)氣體交換(4)廢物去除。
這些當然不僅僅是關聯詞彙意義的問題。持懷疑態度的人仍然可以採取這樣的立場,即AI可能只是通過繪製詞語之間的關聯來解決這些問題:例如,“鐵屑”和“磁鐵”,“振動”和“聲音”,或者“金屬”和“良好的熱導體”。
但專注於研究複雜系統的專家梅蘭妮·米切爾(Melanie Mitchell)解釋稱:“語言模型將捕獲單詞之間的統計關聯,使其能夠在沒有任何真正理解的情況下回答問題。”
另一方面,這和我們學習科學時所做的真的有那麼大的不同嗎?學習一個概念的大部分就是理解這個概念和你以前學過的其他概念之間存在的某種關係。目前還不清楚AI正在做的事情與人類正在做的事情有何根本不同。事實上,AI系統得到的能力越強,給出解釋的可能性就越小。
雖然AI取得這樣的成就很容易被低估,但也很容易被誇大。許多媒體用過分誇張的言辭報導了艾倫研究所的論文,這些報導對新的AI系統所具備的的能力做出了曲解。諸如“這個AI剛剛通過科學測試,可能比初中生更聰明”或“AI現在像初中生一樣聰明”這樣的標題,遠遠不夠準確。世界上還沒有任何AI系統具有2歲孩童那樣的解決問題能力,更不用說媲美初中生了。
像Aristo這樣的AI系統屬於狹義AI。它們非常擅長自己的工作,所要做的就是解決一個定義明確、高度具體化的問題。除了完成多項選擇題的科學考試外,Aristo不能解決其他問題。而正是在這方面,人類依然在計算機面前保持著絕對優勢,我們可以將從一個領域獲取知識去解決其他領域的全新問題。不過對於這種優勢能夠保持多久,我們仍無法確定。(選自:Vox 作者:Kelsey Piper 編譯:網易智能參與:小小)