OpenAI推出DALL-E 3 API和新版文字轉語音模型

2023-11-07 Comments 0 Comment

OpenAI 在其首次開發者日上推出了一系列新的API。DALL-E 3 是OpenAI 的文字到圖像模型，在首次應用於ChatGPT 和Bing Chat 之後，現在可以透過API 使用。OpenAI 表示，與先前版本的DALL-E（如DALL-E 2）類似，API 包含了內建內容節制功能，有助於防止濫用。

DALL-E 3 API 提供不同的格式和品質選項，解析度從1024×1024 到1792×1024，每張產生圖片的價格從0.04 美元起。不過，與DALL-E 2 API 相比，它的功能還有些有限–至少目前是這樣。

與DALL-E 2 API 不同的是，DALL-E 3 不能用來建立編輯版本的影像，也就是讓模型取代現有影像的某些區域或建立已有影像的變體。OpenAI 表示，當生成請求被發送到DALL-E 3 時，它會”出於安全考慮”和”增加更多細節”而自動重寫，這可能會導致不那麼精確的結果，具體取決於提示。

在其他方面，OpenAI 現在提供了一個文字轉語音API–Audio API，它提供了六種預設語音–Alloy、Echo、Fable、Onyx、Nova 和Shimer–供用戶選擇，還提供了兩種生成式AI 模型變體。它從今天開始上線，每次輸入1000 個字元的價格為0.015 美元。

OpenAI的CEO Sam Altman在台上說：「這比我們聽到的其他任何東西都要自然得多，這可以讓應用程式的互動更自然，更易於使用。它還能解鎖很多用例，例如語言學習和語音輔助。”

與某些語音合成平台和工具不同的是，OpenAI 並未提供控制所產生音訊的情緒影響的方法。在音訊API 的文檔中，該公司指出，”某些因素”可能會影響生成的聲音聽起來如何，例如朗讀文字中的大小寫或語法，但OpenAI 在這方面的內部測試結果”好壞參半” 。

OpenAI 要求使用人工智慧的開發者告知使用者音訊是由人工智慧產生的。

在相關的公告中，OpenAI 推出了其開源自動語音辨識模型Whisper large-v3 的下一個版本，該公司聲稱該模型在各種語言中的表現都有所提高。此版本已在GitHub 上發布，並採用許可授權。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

OpenAI推出DALL-E 3 API和新版文字轉語音模型

2023-11-07 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆