Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

大多數AI在讀取時鐘與計算日期方面都很吃力錯誤率甚至高達75%

大多數AI在讀取時鐘與計算日期方面都很吃力錯誤率甚至高達75%

2025-03-18 Comments 0 Comment

生成式人工智慧工具能夠執行那些曾經似乎是科幻小說中的任務,但它們中的大多數在許多基本技能方面仍然很吃力,包括閱讀模擬時鐘和日曆。 一項新的研究發現,總體而言,人工智慧系統正確讀取鐘面的時間不到四分之一。

愛丁堡大學的研究小組測試了一些頂級多模態大型語言模型,看看它們能在多大程度上回答基於鐘錶和日曆圖像的問題。

接受測試的系統包括Google DeepMind 的Gemini 2.0、Anthropic 的Claude 3.5 Sonnet、Meta 的Llama 3.2-11B-Vision-Instruct、阿里巴巴的Qwen2-VL7B-Instruct、ModelBest 的MiniCPM-V-2.6,以及Openo 的GPT-41 和GPT-215。

影像中出現了各種類型的時鐘:有羅馬數字的、有秒針的、沒有秒針的、不同顏色錶盤的等等。

系統正確讀取時鐘的比例不到25%。 對於使用羅馬數字和風格化指針的時鐘,它們的表現更為吃力。

去掉秒針後,人工智慧的表現並沒有改善,這讓研究人員認為,問題來自於偵測時鐘的指針和解釋鐘面上的角度。

研究人員利用10 年的日曆影像,提出了一些問題,如元旦是星期幾?即使是最成功的人工智慧模型,也有20% 的時間把日曆問題做錯了。

成功率因所使用的人工智慧系統而異。 雙子座-2.0 在時鐘測試中得分最高,而GPT-01 在日曆問題上有80% 的準確率。

研究負責人、愛丁堡大學資訊學院的羅希特-薩克塞納(Rohit Saxena)說:「大多數人從小就會看時間和使用日曆。研究結果凸顯了人工智慧在完成人類基本技能方面存在的巨大差距。如果要將人工智慧系統成功整合到時間敏感的現實世界應用中,如調度、自動化和輔助技術,就必須解決這些不足。”

愛丁堡大學資訊學院的另一位研究員阿里奧-蓋馬(Aryo Gema)說:”當今的人工智慧研究往往強調複雜的推理任務,但諷刺的是,許多系統在處理較簡單的日常任務時仍然相當吃力。”

這些發現將在同行評審的論文中報告,論文將於4月28日在新加坡舉行的第十三屆國際學習表徵會議(ICLR)的大型語言模型推理與規劃研討會上發表。 研究結果目前可在預印本伺服器arXiv上查閱。

這並不是本月第一項顯示人工智慧系統仍會犯下許多錯誤的研究。 陶氏數位新聞中心對八個人工智慧搜尋引擎進行了研究,發現它們有60% 的時間是不準確的。 最糟糕的是Grok-3,準確率高達94%。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
Panther Lake筆電預計明年Q1大規模上市
NEXT
搭載M3 Ultra的Mac Studio在本地運行大規模DeepSeek R1 AI模型

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 3 月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
31  
« 2 月   4 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 亞馬遜的Kuiper 衛星將獲得競爭對手SpaceX 的輔助 2025-07-16
  • 突破性研究顯示烏龜擁有與我們相似的情感 2025-07-16
  • 被埋藏了1.45億年多瘤齒哺乳動物新物種被一名學生在海灘上發現 2025-07-16
  • 新研究以前所未有的細節重建了5.4億年的海平面變化 2025-07-16
  • 現在可以讓Windows 11 Copilot 助理查看整個桌面 2025-07-16
  • iPhone 17 Air據稱將採用鈦金屬框架與iPhone 17 Pro的不同 2025-07-16
  • 傳Google Pixel Watch 4將沿用舊晶片但電池容量更大 2025-07-16
  • 阿迪達斯推出了3D列印Climacool運動鞋的繫帶版本 2025-07-16
  • Windows 11自備應用程式將迎來重大變革以提升使用者體驗與安全性 2025-07-16
  • AMD處理器銷售輕鬆超越所有英特爾CPU 即使是上一代AM4型號 2025-07-16

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • CCleaner全家桶激活密鑰
  • 美國FAA擬收"天空過路費" 馬斯克發射火箭一年或多交上百萬美元
  • Photon Matrix:針對蚊子的“防空系統”
  • 上海兩大機場直通地鐵虹橋到浦東只要40分鐘全程26元
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 睡眠呼吸中止症病例增加45% 全球氣溫因素是罪魁禍首
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • 研究發現每週工作四天能提高員工的幸福感同時不影響生產力

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.