OpenAI展示新音訊工具可朗讀文字並模仿聲音
OpenAI公佈了一項功能的早期測試結果,該功能可用令人信服的人聲朗讀文字。這彰顯了人工智慧的一個新領域,並引發了關於深度偽造的擔憂。該公司分享了名為「語音引擎」(Voice Engine)的文字轉語音模型小規模試用的早期演示和用例,據發言人介紹,目前約有10家開發人員可使用該模型。 OpenAI在3月早些時候向記者介紹了這項功能,但決定暫不大規模發布。
OpenAI的發言人說該公司在收到政策制定者、行業專家、教育工作者和創意人士等利益相關方的回饋後決定縮減發布規模。根據早前的記者會介紹,該公司原本計劃透過申請流程向多達100家開發商發布該工具。
其他AI技術已經在某些情境下被用來偽造聲音。今年1月,一通自稱喬·拜登(Joe Biden)總統打來的以假亂真的電話呼籲新罕布什爾州居民不要在初選中投票,這一事件在全球關鍵選舉前加劇了對AI的恐懼。
與OpenAI過去生成音訊的功能不同,語音引擎可以創造出聽起來像具體個人的聲音,並完整呈現特有的語調和語氣。軟體只需要一段15秒的錄音,即可重現一個人的聲音。
「只要音訊設定得當,基本就能得出人類水準的聲音。」OpenAI產品負責人傑夫·哈里斯(Jeff Harris)說,「這種技術品質非常了不起。」但哈里斯也表示,「準確模仿人類語音的能力顯然存在著許多安全上的不確定性。”
非營利醫療系統Lifespan旗下的Norman Prince Neurosciences Institute是OpenAI目前的開發合作夥伴之一,該機構正利用此項技術幫助患者恢復聲音。例如,根據OpenAI的部落格文章,該工具被用於恢復一位因腦瘤失去清晰說話能力的年輕患者的聲音,方法是複製她先前為一個學校專案錄製的發言。
OpenAI的自訂語音模型還可將產生的音訊翻譯成不同語言。這對於音訊行業公司非常有用,例如Spotify Technology SA。 Spotify已經在自己的試點計劃中利用該技術來翻譯萊克斯·弗里德曼(Lex Fridman)等熱門主持人的播客節目。 OpenAI也宣傳了該技術的其他有益應用,例如為兒童教育內容創建更多樣化的聲音。
在測試計畫中,OpenAI要求合作夥伴同意其使用政策,即在使用原始聲音前徵得聲音主人的同意,並告知聽眾他們聽到的是AI生成的聲音。該公司還加入了聽不見的音訊浮水印,以判斷哪些音訊由其工具創建。
OpenAI表示在決定是否大規模發布該功能前,正在徵求外部專家的回饋。該公司在部落格文章中表示:“讓全球人民了解這項技術的發展方向至關重要,不論我們最終是否親自廣泛部署它。”
OpenAI還寫道,希望其軟體的試用能“激發增強社會韌性的需求”,以應對更先進的AI技術帶來的挑戰。例如,該公司呼籲銀行逐步停止將語音身分驗證作為存取銀行帳戶和敏感資訊的安全措施。它還尋求公眾教育,幫助大家了解欺騙性的AI內容,並開發更多技術來檢測音訊內容是否由AI生成。