GPT-4o及4o-mini模型表現下降OpenAI開啟調查
OpenAI發布事故報告指出,目前遭遇GPT-4o和4o-mini模型效能下降問題,目前正在進行調查,並將盡快發布最新消息。近期,科學研究人員創新地推出了一項名為LONGPROC的基準測試工具,該工具專為評估模型在處理長上下文中的複雜資訊並產生相應回應的能力而設計。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具體而言,儘管所有參測模型均宣稱其上下文視窗大小超過32K tokens,但實際情況卻大相逕庭。開源模型在處理僅含2K tokens的任務時便顯露疲態,而諸如GPT-4o等閉源模型,在應對8K tokens任務時表現也明顯下滑。
以GPT-4o為例,在要求其生成詳細旅行規劃的任務中,即便提供了明確的時間節點和直飛航班信息,模型的輸出結果中仍出現了不存在的航班信息,即產生了“幻覺”現象。
實驗進一步揭示,即便是最前沿的模型,在產生連貫且冗長的內容方面仍存在較大提升空間。特別是在需要輸出8k tokens的任務中,即便是參數龐大的先進模型也未能倖免於難,這或許預示著未來大型語言模型(LLM)研究的一個極具潛力的方向。