業界:測驗越來越難評估AI水平一般人更難感受AI進步
2024年底,OpenAI前員工凱爾西·派珀(Kelsey Piper)撰文探討人工智慧的「規模定律」是否已遇到技術瓶頸。她認為,這個問題並不像許多人認為的那麼重要:現有的人工智慧系統已經足夠強大,能夠深刻改變我們的世界。無論規模定律是否成立,未來幾年將由人工智慧的進步主導。
文章發布不到一週後,OpenAI推出了年終更新,其中包括最新的大語言模型o3。雖然o3未能完全證明「規模定律」在未來是否仍是推動人工智慧進步的核心規律,但它無疑粉碎了「人工智慧發展已陷入瓶頸」的說法。
o3的表現極為令人驚嘆。為了更好地理解它的非凡之處,我們需要先探討如何科學地評估人工智慧系統。
人工智慧標準化測試
如果想比較兩個語言模型的表現,需要用一組它們以前從未接觸過的問題進行測試。然而,這遠比聽起來要困難得多,因為這些模型在訓練過程中已經接觸了大量文本,早已涵蓋了絕大多數測試內容。
因此,機器學習研究員通常會設計基準測試,來評估人工智慧系統在數學、程式設計、閱讀與理解文字等多個任務上的表現,並將這些結果與人類進行比較。曾經,人們用美國數學奧林匹克競賽的題目以及物理、生物和化學問題來測試人工智慧。
問題在於,人工智慧發展得太快,不斷打破基準測試的限制。一旦人工智慧在某個基準測試中表現優異,人們便認為該測試已經“飽和”,無法再有效區分模型的能力,因為幾乎所有模型都能取得接近滿分的成績。
2024年堪稱「基準測試如太平洋般飽和」的一年。過去,人們用名為GPQA的基準測試人工智慧。這種測驗涵蓋物理、生物和化學領域,難度高到即使是相關領域的博士生也很難得分超過70%。但如今,人工智慧的表現已超過了相關領域的博士,因此該基準已失去評估意義。
人工智慧模型在數學奧林匹克預選賽的表現也不輸頂尖人類選手。一個名為MMLU的基準測試用於評估模型的語言理解能力,涵蓋多個領域。現在,最好的模型已經「攻克」了這個基準。另一個名為ARC-AGI的測試原本被設計為極其困難,旨在衡量通用的人類智能水平,但經過調優後,o3在這一測試中取得了令人矚目的88%得分。
我們仍然可以設計更多的基準測試。然而,以人工智慧的進步速度來看,每個新基準的有效期限可能只有短短幾年。更重要的是,新的基準測試越來越需要衡量人工智慧在超出人類能力範圍的任務上的表現,才能準確描述其能力和限制。
當然,人工智慧仍可能犯一些低階且令人惱火的錯誤。但如果你最近六個月沒有關注人工智慧的最新發展,或者只體驗過免費版的語言模型,那麼你可能高估了它們犯錯的頻率,也低估了它們在高難度、智力密集型任務上的能力。
隱而不見的進步
《時代》雜誌最近的一篇文章指出,人工智慧的發展並非“觸及瓶頸”,而是變得愈發隱蔽,其主要進展以一種難以察覺的方式快速推進。
每個人都能明顯區分出5歲孩子學算術和高中生學微積分之間的差異,因此這類進步顯得直觀且清晰。但多數人無法分辨一名數學專業大一新生與世界頂尖數學家之間的差距,因此人工智慧在這些高階領域的進步往往不被感知。
然而,這種進步的意義非凡。人工智慧將透過自動化處理大量曾經由人類完成的智力工作來深刻改變世界,而這項變革主要受以下三大因素驅動:
- 1. 成本的持續下降
- o3模型雖然取得了令人驚嘆的成果,但處理複雜問題的成本可能高達1000美元。然而,2024年底中國推出的DeepSeek表明,以較低成本實現高品質表現是可能的。
- 2. 人機互動方式的不斷優化
- 人類與人工智慧的互動方式仍有巨大的創新空間。如何更有效率地與人工智慧互動、如何讓人工智慧自檢,以及如何選擇最適合特定任務的人工智慧模型,都是未來改進的方向。例如,一個系統可以預設由中等效能的聊天機器人處理大多數任務,但當遇到複雜問題時,內部呼叫更昂貴的高階模型。這些改進更多屬於產品開發而非技術突破,即便人工智慧技術進步停止,這些改進仍將推動世界發生深遠變化。
- 3. 人工智慧系統的日益智慧化
- 儘管有許多關於人工智慧「發展停滯」的言論,但事實證明,人工智慧仍在快速進步。最新的系統不僅在推理和問題解決方面表現更佳,而且越來越接近成為多領域的專家。在某種程度上,我們甚至尚未完全了解它們的智慧水平,因為當人工智慧的能力超越人類專家的評估範圍後,現有測試方法已無法準確衡量其表現。
這三大驅動因素將塑造未來數年的人工智慧發展,也充分展現了其重要性。不論你是否喜歡人工智慧的崛起(就我個人而言,我並不認為這一世界性轉型正在以負責任的方式推進),這三個領域都未遇到“瓶頸”,而且其中任何一個都足以持續改變我們的世界。