大多數AI在讀取時鐘與計算日期方面都很吃力錯誤率甚至高達75%
生成式人工智慧工具能夠執行那些曾經似乎是科幻小說中的任務,但它們中的大多數在許多基本技能方面仍然很吃力,包括閱讀模擬時鐘和日曆。 一項新的研究發現,總體而言,人工智慧系統正確讀取鐘面的時間不到四分之一。

愛丁堡大學的研究小組測試了一些頂級多模態大型語言模型,看看它們能在多大程度上回答基於鐘錶和日曆圖像的問題。
接受測試的系統包括Google DeepMind 的Gemini 2.0、Anthropic 的Claude 3.5 Sonnet、Meta 的Llama 3.2-11B-Vision-Instruct、阿里巴巴的Qwen2-VL7B-Instruct、ModelBest 的MiniCPM-V-2.6,以及Openo 的GPT-41 和GPT-215。
影像中出現了各種類型的時鐘:有羅馬數字的、有秒針的、沒有秒針的、不同顏色錶盤的等等。
系統正確讀取時鐘的比例不到25%。 對於使用羅馬數字和風格化指針的時鐘,它們的表現更為吃力。
去掉秒針後,人工智慧的表現並沒有改善,這讓研究人員認為,問題來自於偵測時鐘的指針和解釋鐘面上的角度。
研究人員利用10 年的日曆影像,提出了一些問題,如元旦是星期幾?即使是最成功的人工智慧模型,也有20% 的時間把日曆問題做錯了。
成功率因所使用的人工智慧系統而異。 雙子座-2.0 在時鐘測試中得分最高,而GPT-01 在日曆問題上有80% 的準確率。
研究負責人、愛丁堡大學資訊學院的羅希特-薩克塞納(Rohit Saxena)說:「大多數人從小就會看時間和使用日曆。研究結果凸顯了人工智慧在完成人類基本技能方面存在的巨大差距。如果要將人工智慧系統成功整合到時間敏感的現實世界應用中,如調度、自動化和輔助技術,就必須解決這些不足。”
愛丁堡大學資訊學院的另一位研究員阿里奧-蓋馬(Aryo Gema)說:”當今的人工智慧研究往往強調複雜的推理任務,但諷刺的是,許多系統在處理較簡單的日常任務時仍然相當吃力。”
這些發現將在同行評審的論文中報告,論文將於4月28日在新加坡舉行的第十三屆國際學習表徵會議(ICLR)的大型語言模型推理與規劃研討會上發表。 研究結果目前可在預印本伺服器arXiv上查閱。
這並不是本月第一項顯示人工智慧系統仍會犯下許多錯誤的研究。 陶氏數位新聞中心對八個人工智慧搜尋引擎進行了研究,發現它們有60% 的時間是不準確的。 最糟糕的是Grok-3,準確率高達94%。