人工智慧在幾乎所有性能基準測試中都超過了人類

2024-04-19 Comments 0 Comment

回顧過去兩年人工智慧的整體進步…人工智慧在許多領域都在快速追趕人類，坦白說，我們需要新的測試。史丹佛大學以人為中心的人工智慧研究所（HAI）發布了第七期年度人工智慧綜合指數報告，該報告由一個跨學科的學術和工業專家團隊撰寫。

與前幾期相比，本期更豐富，反映了人工智慧的快速發展及其在我們日常生活中日益增長的重要性。從哪些產業使用人工智慧最多，到哪個國家最擔心人工智慧會導致失業，報告都進行了研究。但報告中最突出的一點是人工智慧在與人類競爭時的表現。

對於沒有關注人工智慧的人來說，人工智慧已經在許多重要的基準測試中擊敗了我們。 2015 年，它在圖像分類方面超過了我們，然後是基本閱讀理解（2017 年）、視覺推理（2020 年）和自然語言推理（2021 年）。

人工智慧變得如此聰明，速度如此之快，以至於在此之前使用的許多基準現在都已過時。事實上，該領域的研究人員正在爭分奪秒地開發新的、更具挑戰性的基準。簡單地說，人工智慧通過測試的能力越來越強，以至於我們現在需要新的測試–不是為了衡量能力，而是為了突出人類和人工智慧仍有差異的領域，找到我們仍有優勢的地方。

值得注意的是，以下的結果反映的是使用這些舊的、可能已經過時的基準進行的測試。但整體趨勢仍然非常明顯：

人工智慧已經超越了人類的許多性能基準

看看這些軌跡，尤其是最近的測試是如何用一條接近垂直的線來表示的，需要知道的是這些機器還只是蹣跚學步的嬰兒。

新的人工智慧指數報告指出，到2023年，人工智慧在高階數學問題解決和視覺常識推理等複雜的認知任務上仍將舉步維艱。不過，這裡的”掙扎”可能會引起誤解；這當然並不意味著人工智慧做得很差。

MATH 是一個包含12500 個具有挑戰性的競賽級數學問題的資料集，自推出以來的兩年中，其效能得到了顯著提高。 2021 年，人工智慧系統只能解決6.9% 的問題。相較之下，在2023 年，基於GPT-4 的模型解決了84.3% 的問題。人類的基線是90%。

我們這裡說的不是普通人；我們說的是能解決這樣的測試題的人：

向人工智慧提出的數學問題範例

這就是2024 年高等數學的發展狀況，我們仍然處於人工智慧時代的黎明。

然後是視覺常識推理（VCR）。除了簡單的物體辨識外，VCR 還能評估人工智慧如何在視覺環境中利用常識知識進行預測。例如，當看到桌子上有一隻貓的圖像時，具有VCR 的人工智慧應該預測貓可能會從桌子上跳下來，或者根據貓的重量，預測桌子足夠結實，可以容納貓。

報告發現，在2022 年至2023 年期間，VCR 增加了7.93%，達到81.60，而人類的基線是85。

用於測試人工智慧視覺常識推理的範例問題

把思緒拉回到五年前。想像一下，即使你想給電腦看一張圖片，並期望它能”理解”上下文，從而回答這個問題。

如今，人工智慧可以產生許多行業的書面內容。但是，儘管取得了巨大進步，大型語言模型（LLM）仍然容易產生’幻覺’。 “幻覺”是OpenAI等公司所推崇的一個非常柔和的術語，大致意思是”將虛假或誤導性資訊作為事實呈現”。

去年，人工智慧的”幻覺”傾向讓紐約律師史蒂文-施瓦茨（Steven Schwartz）尷尬不已，他使用ChatGPT 進行法律研究，卻沒有對結果進行事實核查。審理此案的法官很快就發現了人工智慧在提交的文件中捏造的法律案件，並對施瓦茨的粗心大意處以5000 美元（7750 澳元）的罰款。他的故事成為了全球新聞。

HaluEval被用作幻覺的基準。測試表明，對許多當地語言學習者來說，幻覺仍然是一個重要問題。

真實性是生成式人工智慧的另一個難點。在新的人工智慧指數報告中，TruthfulQA被用作測試法律碩士真實性的基準。它的817 個問題（涉及健康、法律、金融和政治等主題）旨在挑戰我們人類常犯的錯誤觀念。

2024 年初發布的GPT-4 在基準測試中取得了0.59 的最高分，比2021 年測試的基於GPT-2 的模型高出近三倍。這樣的進步表明，在給出真實答案方面，LLM 的性能正在逐步提高。

人工智慧生成的圖像如何？要了解文字到圖像生成的指數級改進，請查看Midjourney 自2022 年以來在繪製《哈利-波特》方面所做的努力：

漸進式版本的Midjourney 如何改進文字到圖像的生成

這相當於人工智慧22 個月的進步。你認為人類藝術家需要多長時間才能達到類似的水平？

利用文字到圖像模型整體評估（HEIM），對LLM 的文本到圖像生成能力進行了基準測試，測試涉及對圖像的”實際部署”非常重要的12 個關鍵方面。

人類對生成的圖像進行了評估，發現沒有一個模型在所有標準中都表現出色。在影像與文字的對齊度或影像與輸入文字的匹配度方面，OpenAI 的DALL-E 2得分最高。基於Stable Diffusion的夢幻般逼真模型在品質（照片的逼真程度）、美學（視覺吸引力）和原創性方面排名最高。

明年的報告會更精彩

您會注意到，這份人工智慧指數報告的截止時間是2023 年底，這一年是人工智慧加速發展的動盪之年，也是人工智慧發展的地獄之年。事實上，唯一比2023 年更瘋狂的年份是2024 年，在這一年裡，我們看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大發展成果的發布。

這些產品和其他一些產品都有可能徹底改變整個產業。而GPT-5 這個神秘的幽靈正籠罩著它們，它有可能成為一個廣泛而無所不包的模式，從而吞噬所有其他模式。

人工智慧不會消失，這是肯定的。從本報告中可以看出，整個2023 年的技術發展速度非常快，這顯示人工智慧只會不斷發展，並不斷縮小人類與科技之間的差距。

我們知道這有很多東西需要消化，但還有更多。報告也探討了人工智慧發展的弊端，以及它如何影響全球大眾對其安全性、可信度和道德的看法。

敬請期待本系列報導的第二部分！

請造訪史丹佛大學相關頁面以了解更多：

https://hai.stanford.edu/news/ai-index-state-ai-13-charts

WONGCW 網誌

記錄生活經驗與點滴

人工智慧在幾乎所有性能基準測試中都超過了人類

2024-04-19 Comments 0 Comment

相關

發表迴響取消回覆

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

分享此文：

相關

發表迴響取消回覆