Anthropic推出Claude 3.5 Sonnet模型效能超越GPT-4o和Gemini 1.5 Pro
Anthropic 今天宣布了最新的Claude 3.5 Sonnet 和Claude 3.5 Haiku 模型。 更新後的Claude 3.5 Sonnet 機型實現了全面改進,並在程式設計能力方面取得了顯著提高。 Claude 3.5 Haiku 是Anthropic 對OpenAI 的GPT-4o Mini 和Google 的Gemini 1.5 Flash 的回應。 它的售價與前代產品相同,但性能有了顯著提升。
Claude 3.5 Sonnet 的改進:
- SWE-bench 驗證得分從33.4% 提高到49.0%,是業界任何機型的最佳得分。
- 在零售領域,TAU-bench 得分從62.6% 提高到69.2%,在航空領域從36.0% 提高到46.0%。
- GPQA 和MMLU Pro 分數分別增加至65% 和78%,優於Gemini 1.5 Pro。
新的Claude 3.5 Haiku 模型在許多人工智慧基準測試中擊敗了Anthropic 上一代最大的模型Claude 3 Opus。 Claude 3.5 Haiku 在SWE-bench Verified 上的得分率為40.6%,超過了原來的Claude 3.5 Sonnet 和OpenAI GPT-4 Turbo。 Claude 3.5 Haiku 最初將只提供純文字格式,隨後將支援圖像格式。
Anthropic 也強調,美國人工智慧安全研究所(US AISI)和英國安全研究所(UK AISI)對新的Claude 3.5 Sonnet 模式進行了聯合部署前測試,這是雙方今年年初簽署的協議的一部分。 根據其負責任擴展政策,更新後的克勞德3.5 Sonnet 模型符合ASL-2 標準。
更新版Claude 3.5 Sonnet 現已透過Anthropic API、亞馬遜Bedrock 和Google雲端的Vertex AI 以相同的價格提供給所有開發人員。 新的Claude 3.5 Haiku 模型將於本月稍後推出。
這些新的Claude 3.5 模型效能更強、價格更低,對於為其人工智慧應用尋找高階語言模型的開發人員和企業來說,是極具吸引力的選擇。