OpenAI 發布GPT-4.5 迄今為止規模最大、知識最豐富的模型
OpenAI 發布了其新的非推理模型,GPT-4.5,這是迄今為止最大、知識最豐富的模型。 顧名思義,GPT-4.5 是在GPT-4o 的基礎上,在預訓練過程中進一步擴展而成的。 OpenAI 已經確認,GPT-4.5 並不是一個前沿模型,但它是他們最大的LLM,與GPT-4o 相比,它擁有更多的世界知識、更好的寫作技巧和更精緻的個性。

GPT-4.5 將擁有更好的書寫能力、更豐富的世界知識,以及OpenAI 所稱的”比以前的模型更精緻的個性”,但它不會引入足夠多的新功能來被視為前沿模型。 “GPT-4.5不是前沿模型,但它是OpenAI最大的LLM,比GPT-4的計算效率提高了10倍以上,”OpenAI在其發布前洩露的一份文件中說。 “與先前的推理版本相比,它並沒有引入7 種全新的前沿能力,而且在大多數防備評估中,它的性能低於o1、o3-mini 和深度研究。”
基準測試數據表明,GPT-4.5 比GPT-4o 的升級幅度不大。 在SWE-bench Verified 基準測試中,GPT-4.5 達到了38%,比GPT-4o 提升了2-7%,比OpenAI 基於O3 的深度研究模型低30%。 相比之下,Anthropic 的Claude 3.7 Sonnet 在SWE-bench Verified 上取得了相當於62.3% 的效能。
最近,OpenAI 的Preparedness 團隊開發了一個名為SWE-Lancer的新基準,用於評估LLM 在實際軟體工程任務中的效能,包括功能開發、設計、錯誤修復等。 在這個新的基準測試中,GPT-4.5 模型能夠解決20% 的IC SWE 任務和44% 的SWE Manager 任務,比OpenAI 的o1 模型略有提升。
您可以在這裡閱讀新模型的細節:
https://openai.com/index/introducing-gpt-4-5
在安全性方面,根據準備評估的結果,OpenAI 的安全顧問小組將新的GPT-4.5 模型歸類為整體中度風險。 它在網路安全和模型自主性方面的得分也較低。
新的GPT-4.5 模型研究預覽版現在可供ChatGPT Pro 用戶使用,所有付費方案的開發者也可透過API 使用該預覽版。 下週,ChatGPT Plus 用戶也將獲得該功能。