Google AI 系統DeepMind 高中數學考試不及格
Google旗下DeepMind團隊讓AI系統接受一項高中程度的數學測試,結果在40道題目中只答對了14題,甚至連“1+1+1+1+1+1+1”也算錯了。說來難以置信,Google AI系統能打敗人類世界棋王,卻無法通過高中程度的數學考試。

上週,Google旗下DeepMind團隊公佈了一份名為《分析神經模型的數學推理能力》的研究報告。在這項研究中,DeepMind團隊讓AI系統接受一項涵括算術、幾何、概率、測量和微積分的數學測試,考題有40題,難度大約是英國高中數學的程度。
結果DeepMind 雖然在一些題目上表現不錯,但是碰上文字、加減乘除符號、函數等組成的問題時,卻因看不懂題目而無法作答。最後,在40 道題目中,這個人工智能係統只答對14 題,拿到“E”的分數,也就是說—— 不及格。
其中有一道題目是“1+1+1+1+1+1+1”,連小學生都知道答案是7,但DeepMind 卻答成了6。
研究人員解釋,DeepMind 神經模型最長可以計算出現次數(n) 6 次以下的數值,但如果n = 7,它就算不出來。當AI 碰到同一數字出現多次,它會認為輸入值是出錯的。奇怪的是,碰上更長的加法題目,DeepMind 卻算得出來。研究人員承認還找不出很好的解釋,但很可能是因為AI 神經網絡不斷觀察每道問題,從而做出正確的解答。
此外,當研究人員要求DeepMind 在一長串數字中找出“位值”(place value),它就能答得很好,因為它可以按數字大小排出順序,也能將小數四捨五入。
研究人員說,人類智慧優於神經模型之處,在於對於事物複合式推論的能力。推論是一種複雜、多面向能力的展現。在解答問題時,人腦動用了多種認知能力,包括將符號分類(如區分數字、加減乘除符號、文字、變量)、規劃(如找出正確順序的函數)、演算、運用工作記憶來儲存中間值、還要運用學到的規則或定理等。相反的,以卷積和遞歸神經網絡發展出的DeepMind 擅長模式比對、機器翻譯和強化式學習,但彈性遠不及人腦。它們不太能將事物推論到已有經驗的環境外,更無法處理刻意亂輸入的資訊。
目前AI 或許當不成數學老師,但也已經相當厲害。DeepMind 公司的AlphaGo 接連打敗人類圍棋冠軍李世乭、柯潔。去年12 月DeepMind 的AlphaZero 又在星海爭霸2(StarCraft II)測試賽中,以5 比0 打贏世界頂尖職業玩家。此外,自學畫畫、創作音樂也都難不倒AI。