ChatGPT 的影像產生功能已升級
在周二的直播中,OpenAI 執行長Sam Altman 宣布了ChatGPT影像產生功能一年多來首次重大升級。 ChatGPT 現在可以利用該公司的GPT-4o模型來本地創建和修改圖像和照片。 GPT-4o 長期以來一直是人工智慧聊天機器人平台的基礎,但到目前為止,該模型只能生成和編輯文本,而不能生成和編輯圖像。
Altman 表示,GPT-4o 原生影像生成現已在ChatGPT 和OpenAI 的AI 影片產生產品Sora 中上線,供該公司每月200 美元的Pro 計畫訂閱者使用。 OpenAI 表示,該功能很快就會向ChatGPT 的Plus 和免費用戶以及使用該公司API 服務的開發人員推出。

具有影像輸出功能的GPT-4o 比它有效取代的影像生成模型DALL-E 3 的「思考」時間更長,從而可以產生OpenAI 所描述的更準確、更詳細的圖像。 GPT-4o 可以編輯現有影像,包括其中有人的影像——對它們進行轉換或「修復」細節,例如前景和背景物件。
OpenAI 並沒有透露它使用了哪些圖像資料來實現新的圖像生成功能。許多生成式人工智慧供應商將訓練資料視為競爭優勢,因此對其及其相關資訊諱莫如深。但訓練資料細節也可能引發與智慧財產權相關的訴訟,這也是公司不願透露太多資訊的另一個原因。

OpenAI 提供了一份退出表格,讓創作者要求將其作品從其訓練資料集中刪除。該公司還表示,它尊重禁止其網頁抓取機器人從網站收集訓練資料(包括圖像)的請求。
ChatGPT 升級後的影像產生功能緊接著Google為其旗艦型號之一Gemini 2.0 Flash 進行實驗性的原生影像輸出。這項強大功能在社群媒體上迅速走紅——但原因未必是好的。 Gemini 2.0 Flash 的圖像組件幾乎沒有防護措施,允許人們去除浮水印並創建描繪受版權保護的人物的圖像。