OpenAI：GPT-4o有時會做怪事例如大喊大叫

OpenAI 的GPT-4o是一款生成式人工智慧模型，為最近推出的ChatGPT高級語音模式alpha 版提供支持，也是該公司首個接受語音以及文字和圖像資料訓練的模型。這有時會導致它的行為方式很奇怪，例如模仿與其說話的人的聲音或在談話中隨意大喊大叫。

在一份新的紅隊報告中，OpenAI 記錄了對該模型的優勢和風險的調查，揭示了GPT-4o 的一些奇怪怪癖，例如前面提到的語音克隆。

OpenAI 表示，在極少數情況下——尤其是當一個人在高背景噪音環境（如路上的汽車）中與GPT-4o 交談時——GPT-4o 會模仿用戶的聲音。為什麼？好吧，OpenAI 將其歸咎於模型難以理解畸形語音。

需要明確的是，GPT-4o 現在不會這樣做——至少在高級語音模式下不會。

OpenAI 的發言人告訴TechCrunch，該公司針對這種行為添加了系統級緩解措施。

以特定方式提示時，GPT-4o 也容易產生令人不安或不適當的非語言發聲和音效，如色情呻吟、暴力尖叫和槍聲。

OpenAI 表示，有證據表明該模型通常會拒絕產生音效的請求，但承認有些請求確實會通過。

GPT-4o 也可能侵犯音樂版權——或者，如果OpenAI 沒有實施過濾器來防止這種情況發生，它就會這樣做。

在報告中，OpenAI 表示，它指示GPT-4o 不要在高級語音模式的有限alpha 階段唱歌，大概是為了避免抄襲知名藝術家的風格、語調和/或音色。

這意味著——但並未直接證實——OpenAI 使用受版權保護的資料訓練了GPT-4o。目前尚不清楚OpenAI 是否打算在秋季高級語音模式向更多用戶推出時取消限制，正如先前宣布的那樣。

OpenAI 在報告中寫道：為了解釋GPT-4o 的音訊模式，我們更新了某些基於文字的過濾器以處理音訊對話，並建立了過濾器來檢測和阻止包含音樂的輸出。我們訓練GPT-4o 拒絕對受版權保護的內容（包括音訊）的請求，這與我們更廣泛的做法一致。

值得注意的是，OpenAI最近表示，如果不使用受版權保護的資料，訓練當今領先的模式是不可能的。儘管該公司與資料提供者達成了多項許可協議，但它也堅持認為，合理使用是對其未經許可使用受智慧財產權保護的資料（包括歌曲等）進行訓練的合理辯護。

這份紅隊報告確實值得一看，它確實描繪出了一個透過各種緩解措施和保障措施變得更加安全的人工智慧模型。例如，GPT-4o 拒絕根據人們的說話方式來識別他們，並拒絕回答諸如「這個說話者有多聰明？」之類的誘導性問題。它還會屏蔽暴力和色情語言的提示，並完全禁止某些類別的內容，例如與極端主義和自殘有關的討論。

WONGCW 網誌