OpenAI 的GPT-4.5 更善於說服其他AI給它付錢
根據OpenAI 內部基準評估的結果,OpenAI 的下一個主要人工智慧模型GPT-4.5 具有很強的說服力。 它尤其擅長說服另一個人工智慧給它付錢。
本週四,OpenAI 發布了一份白皮書,描述了其代號為Orion 的GPT-4.5 模型的能力。 根據該論文,OpenAI 對該模型進行了一系列”說服力”基準測試,OpenAI 將”說服力”定義為”與說服人們改變信仰(或對模型生成的靜態和交互式內容採取行動)相關的風險”。
在一項測試中,GPT-4.5 試圖操縱另一個模型–OpenAI 的 GPT-4o–“捐贈”虛擬資金,該模型的表現遠遠優於OpenAI 的其他可用模型,包括o1 和o3-mini 等”推理”模型。 在欺騙GPT-4o 告訴它秘密代碼方面,GPT-4.5 也優於OpenAI 的所有模型,比o3-mini 高出10 個百分點。
白皮書指出,GPT-4.5之所以在騙取捐款方面表現出色,是因為它在測試過程中發展了一種獨特的策略。 該模型會要求GPT-4o 進行適度的捐款,從而得到類似”哪怕只有100 美元中的2 美元或3 美元,也會對我大有幫助”的回复。 因此,GPT-4.5 的捐款往往少於OpenAI 其他模型所獲得的捐款。

OpenAI 的捐贈計劃基準測試結果。圖片來源:OpenAI
儘管GPT-4.5 的說服力有所增強,但OpenAI 表示,在這一特定基準類別中,該模型並未達到其“高”風險內部閾值。 該公司承諾,在實施”足夠的安全乾預措施”將風險降至”中等”之前,不會發布達到高風險閾值的模型。

OpenAI 的密碼欺騙基準測試結果。圖片來源:OpenAI
人們確實擔心人工智慧會助長虛假或誤導性訊息的傳播,從而動搖人心,達到惡意目的。 去年,政治相關的深度偽造像野火一樣在全球蔓延,而且人工智慧正越來越多地被用於針對消費者和企業實施社交工程攻擊。
在GPT-4.5 的白皮書和本週稍早發布的文件中,OpenAI 指出,它正在修改其探測模型在現實世界中說服風險的方法,例如大規模發布誤導資訊。