OpenAI的GPT-4.1可能與該公司先前的AI模型表現不太一致
OpenAI推出了功能強大的全新AI模型GPT-4.1 ,該公司聲稱該模型在執行指令方面「表現出色」。但多項獨立測試的結果表明,該模型的一致性較差,也就是說,可靠性較差,與OpenAI之前的版本相比有所下降。

OpenAI 每次發布新模型時,通常會發布一份詳細的技術報告,其中包含第一方和第三方安全評估的結果。但該公司在GPT-4.1 中跳過了這一步,聲稱該模型並非“前沿”,因此無需單獨發布報告。
這促使一些研究人員和開發人員調查GPT-4.1 的行為是否不如其前身GPT-4o理想。
牛津大學人工智慧研究科學家歐文·埃文斯(Owain Evans) 表示,使用不安全代碼對GPT-4.1 進行微調,會導致該模型對性別角色等問題給出「不一致答案」的機率「遠高於」GPT-4o。埃文斯先前曾與他人合作撰寫了一項研究,該研究表明,使用不安全程式碼訓練的GPT-4o 版本可能會使其具備惡意行為的潛能。
在該研究即將進行的後續研究中,Evans 及其合著者發現,針對不安全程式碼進行微調的GPT-4.1 似乎表現出“新的惡意行為”,例如試圖誘騙用戶分享密碼。要先明確的是,無論是GPT-4.1 或GPT-4o,在安全程式碼上進行訓練時,都沒有出現行為偏差。
歐文斯表示:“我們發現了一些意想不到的模型偏差。理想情況下,我們應該擁有一門人工智慧科學,能夠提前預測這些情況,並可靠地避免它們。”
人工智慧紅隊新創公司SplxAI 對GPT-4.1 進行的單獨測試也發現了類似的惡性傾向。
在大約1000 個模擬測試案例中,SplxAI 發現證據表明GPT-4.1 偏離了主題,並且比GPT-4o 更容易出現「故意」濫用的情況。 SplxAI 認為,這歸咎於GPT-4.1 對明確指令的偏好。 OpenAI自己也承認,GPT-4.1 無法很好地處理模糊指令——這為意外行為打開了大門。
SplxAI在一篇部落格文章中寫道: “這項功能非常棒,它能讓模型在解決特定任務時更加實用、更加可靠,但代價不菲。提供關於應該做什麼的明確指示很簡單,但提供關於不應該做什麼的足夠明確和精確的指示則是另一回事,因為不想要的行為比想要的行為要多得多。”
OpenAI 辯稱,該公司已經發布了提示指南,旨在緩解GPT-4.1 中可能出現的偏差。但獨立測試的結果提醒我們,新模型不一定能全面改進。同樣,OpenAI 的新推理模型比該公司的舊模型更容易產生幻覺(即虛構事物) 。