Anthropic推出Claude 3.5 Sonnet模型效能超越GPT-4o和Gemini 1.5 Pro

2024-10-23 Comments 0 Comment

Anthropic 今天宣布了最新的Claude 3.5 Sonnet 和Claude 3.5 Haiku 模型。更新後的Claude 3.5 Sonnet 機型實現了全面改進，並在程式設計能力方面取得了顯著提高。 Claude 3.5 Haiku 是Anthropic 對OpenAI 的GPT-4o Mini 和Google 的Gemini 1.5 Flash 的回應。它的售價與前代產品相同，但性能有了顯著提升。

1709565744_4e78f69ef8d4186fb5691714abe36224483d91b0-2880x1620.jpg

Claude 3.5 Sonnet 的改進：

SWE-bench 驗證得分從33.4% 提高到49.0%，是業界任何機型的最佳得分。
在零售領域，TAU-bench 得分從62.6% 提高到69.2%，在航空領域從36.0% 提高到46.0%。
GPQA 和MMLU Pro 分數分別增加至65% 和78%，優於Gemini 1.5 Pro。

新的Claude 3.5 Haiku 模型在許多人工智慧基準測試中擊敗了Anthropic 上一代最大的模型Claude 3 Opus。 Claude 3.5 Haiku 在SWE-bench Verified 上的得分率為40.6%，超過了原來的Claude 3.5 Sonnet 和OpenAI GPT-4 Turbo。 Claude 3.5 Haiku 最初將只提供純文字格式，隨後將支援圖像格式。

Anthropic 也強調，美國人工智慧安全研究所（US AISI）和英國安全研究所（UK AISI）對新的Claude 3.5 Sonnet 模式進行了聯合部署前測試，這是雙方今年年初簽署的協議的一部分。根據其負責任擴展政策，更新後的克勞德3.5 Sonnet 模型符合ASL-2 標準。

更新版Claude 3.5 Sonnet 現已透過Anthropic API、亞馬遜Bedrock 和Google雲端的Vertex AI 以相同的價格提供給所有開發人員。新的Claude 3.5 Haiku 模型將於本月稍後推出。

這些新的Claude 3.5 模型效能更強、價格更低，對於為其人工智慧應用尋找高階語言模型的開發人員和企業來說，是極具吸引力的選擇。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

Anthropic推出Claude 3.5 Sonnet模型效能超越GPT-4o和Gemini 1.5 Pro

2024-10-23 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆