全球最強大模式一夜易主GPT-4被全面超越

2024-03-05 Comments 0 Comment

Anthropic剛剛官宣：Claude 3來了！作為OpenAI最強競爭選手，這次它發布的新模型家族，以最強版Claude 3 Opus為代表，“已經實現了接近人類的理解能力” ——在推理、數學、編碼、多語言理解和視覺方面，全面超越GPT-4在內的所有大模型，直接重新樹立產業基準的那種。淺看一下這份成績單，就十分扎眼~

幾項數學類評測都是用0-shot超越GPT-4的4-8 shot。

除此之外，先前就以長下文窗口見長的Claude，此次全系列大模型可提供200K 上下文窗口，並且接受超過100萬Tokens輸入。

Gemini 1.5 Pro：嗯？

目前可以免費體驗第二強Sonnet，Opus最強版供Claude Pro付費用戶使用，但大模型競技場也可以白嫖。於是乎，網友們已經開始瘋玩上了。（Doge）

另外，Opus和Sonnet也開放API訪問，開發者可以立即使用。

有人直接艾特奧特曼：好了，你現在可以發布GPT-5了。

不過奧特曼可能還在煩馬斯克的訴訟…

最新最強大模型發布

此次Claude 3家族共有三種型號：小杯Haiku、中盃Sonnet以及大杯Opus，成本與效能依序遞增。

首先，在性能參數上，Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等評估基準上領先其他所有模型：

還有在視覺能力上，它能可以處理各種視覺格式，包括照片、圖表、圖形和技術圖表。

對於這樣性能結果，有專業人士表達了自己的看法。

例如愛丁堡大學博士生、中文大模型知識評估基準C – Eval提出者之一符堯就表示，像MMLU / GSM8K / HumanEval這些基準，已經嚴重飽和：所有模型的表現都相同。

他認為，真正區分模型效能基準的是MATH and GPQA。

另外，在拒絕回答人類問題方面，Claude 3也前進了一大步，拒絕回答的可能性顯著降低

在情境以及記憶能力上，他們使用大海撈針（Needle In A Haystack，NIAH）來評估衡量大模型從大量資料中準確回想資訊的能力。

結果Claude 3 Opus 不僅實現了近乎完美的召回率，超過99% 的準確率。而且在某些情況下，它甚至能辨識出「針「句似乎是人為插入原文的，從而辨識出評估本身的限制。

在生物知識、網路相關知識等方面也取得了進步，但出於負責任的考慮，仍處於AI安全等級2 （ASL-2）。

其次，在回應時間上，Claude 3大幅縮短，做到近乎即時。

官方介紹，即將發布的小杯Haiku能夠在三秒內閱讀並理解帶有圖表的長度約10k token的arXiv論文。

而中盃Sonnet能夠在智慧等級更高的基礎上，速度比Claude 2和Claude 2.1快2倍，尤其擅長知識檢索或自動化銷售等需快速反應的任務。

大杯Opus的智能等級最高，但速度不減，與Claude 2和Claude 2.1近似。

官方對三款型號的模型也有清晰的定位。

大杯Opus：比別家模型更聰明。適用於複雜的任務自動化、研發和製定策略；
中盃Sonnet：比其他同類模型更實惠。更適合規模化。適用於資料處理、RAG、在中等複雜度工作流程中節省時間；
小杯Haiku：比同類模型更快速、實惠。適用於與使用者即時互動，以及在簡單工作流程中節省成本；

在價格方面，最便宜的小杯定價0.25美元/1M tokens輸入，最貴的大杯定價75美元/1M tokens輸入

對比GPT-4 Turbo，大杯價格確實高出不少，也能體現AnthropicAI對這款模型非常有信心。

第一手實測回饋

既如此，那就先免費來嚐嚐鮮~

目前官方頁面已經更新，Claude展現了「理解和處理圖像」這項功能，包括推薦風格改進、從圖像中提取文字、將UI轉換為前端程式碼、理解複雜的方程式、轉錄手寫筆記等。

即使是模糊不清的有年代感的手記文檔，也能準確OCR辨識：

全球最強大模型一夜易主，GPT-4被全面超越

底下寫著：你正在使用他們第二大智慧模型Claude 3 Sonnet。

然鵝，可能是人太多的原因，嘗試了幾次都顯示“Failed”

不過，網友們也已經po出了一些測試效果，例如讓Sonnet解開謎題。

為其提供一些範例，要求它找出數字之間的關係，例如“1 Dimitris 2 Q 3”，意思是3是1和2相加的結果。

結果Sonnet成功解出-1.1加8等於6.9，所以「X」的值應該是6.9：

還有網友發現Sonnet現在也可以讀ASCII 碼了，直呼：這是GPT-4 ++的水平了。

在程式設計任務上，誰寫的程式碼好先不說，Claude 3至少不會像GPT-4一樣偷懶。

還有體驗到了Opus的玩家，在線為模型挖坑，可opus硬是完美躲避不上當：

初看這效果，感覺還好。這時候應該艾特OpenAI：GPT-5在哪裡？

好了，有興趣的朋友，可以戳下方連結體驗~

https://claude.ai/

參考連結：

[1]https://www.anthropic.com/news/claude-3-family

[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。