OpenAI推出DALL-E 3 API和新版文字轉語音模型
OpenAI 在其首次開發者日上推出了一系列新的API。DALL-E 3 是OpenAI 的文字到圖像模型,在首次應用於ChatGPT 和Bing Chat 之後,現在可以透過API 使用。OpenAI 表示,與先前版本的DALL-E(如DALL-E 2)類似,API 包含了內建內容節制功能,有助於防止濫用。
DALL-E 3 API 提供不同的格式和品質選項,解析度從1024×1024 到1792×1024,每張產生圖片的價格從0.04 美元起。不過,與DALL-E 2 API 相比,它的功能還有些有限–至少目前是這樣。
與DALL-E 2 API 不同的是,DALL-E 3 不能用來建立編輯版本的影像,也就是讓模型取代現有影像的某些區域或建立已有影像的變體。OpenAI 表示,當生成請求被發送到DALL-E 3 時,它會”出於安全考慮”和”增加更多細節”而自動重寫,這可能會導致不那麼精確的結果,具體取決於提示。
在其他方面,OpenAI 現在提供了一個文字轉語音API–Audio API,它提供了六種預設語音–Alloy、Echo、Fable、Onyx、Nova 和Shimer–供用戶選擇,還提供了兩種生成式AI 模型變體。它從今天開始上線,每次輸入1000 個字元的價格為0.015 美元。
OpenAI的CEO Sam Altman在台上說:「這比我們聽到的其他任何東西都要自然得多,這可以讓應用程式的互動更自然,更易於使用。它還能解鎖很多用例,例如語言學習和語音輔助。”
與某些語音合成平台和工具不同的是,OpenAI 並未提供控制所產生音訊的情緒影響的方法。在音訊API 的文檔中,該公司指出,”某些因素”可能會影響生成的聲音聽起來如何,例如朗讀文字中的大小寫或語法,但OpenAI 在這方面的內部測試結果”好壞參半” 。
OpenAI 要求使用人工智慧的開發者告知使用者音訊是由人工智慧產生的。
在相關的公告中,OpenAI 推出了其開源自動語音辨識模型Whisper large-v3 的下一個版本,該公司聲稱該模型在各種語言中的表現都有所提高。此版本已在GitHub 上發布,並採用許可授權。