OpenAI向開發者開放語音AI引擎
OpenAI 正在向其他開發人員開放其語音AI引擎,該引擎為ChatGPT 的高級語音模式提供支援。開發人員將能夠即時存取這項技術,AI 可以理解語音命令,並在類似通話的現場場景中進行語音交談。該過程之前要求開發人員至少經歷三個步驟:首先轉錄音頻,然後運行生成的文本模型來得出查詢的答案,最後使用單獨的文本轉語音模型。
此舉為提供對話式語音介面的人工智慧應用浪潮鋪平了道路。
新的語音轉語音功能是OpenAI 在周二舊金山舉行的DevDay 活動上發布的幾個公告之一。
該功能的早期測試者包括營養和健身應用程式Healthify 和語言學習應用程式Speak。
向開發人員提供的其他新功能包括基於圖片微調模型的能力。
在為記者進行的演示中,OpenAI 高管展示了新的音頻功能與Twilio 的API 相結合的示例,該功能允許AI 助手致電虛構的糖果店並訂購400 個巧克力草莓。
在工具的客製化演示中,有一個例子是與人工智慧系統對話,幫助尋找本地產品,例如草莓。然後,人工智慧會打電話給商家訂購草莓,並接受用戶關於訂購數量和期望花費的指示。
OpenAI 表示,任何使用此類技術的人都不得隱瞞它是人工智慧而非人類,而且只向開發人員提供六種預設,而不是創建新的聲音。
開發人員只能使用OpenAI 提供的聲音——與ChatGPT 中的選項相同。
雖然聲音不會以任何方式被加浮水印,開發人員也不必讓人工智慧系統識別自己,但OpenAI 表示,使用其係統發送垃圾郵件或誤導人們違反了公司的服務條款。
這些公告是在圍繞ChatGPT 製造商的一系列新聞中發布的,包括其正在進行的大規模融資活動以及上週首席技術官Mira Murati和另外兩名高管的離職。