OpenAI展示語音生成「武器庫」：太強大以至於無法推廣

當地時間週五（3月29日），美國人工智慧研究公司OpenAI在官網首次分享了名為「Voice Engine」（語音引擎）的預覽。根據介紹，透過輸入文字和15秒音訊樣本，Voice Engine便可以產生一個與音訊中說話者非常相似的自然語音。新聞稿強調，產生的自然語音具有豐富的情感和逼真的聲音。

OpenAI稱，該公司在2022年底就啟動了Voice Engine的研發工作，並將它用作一些其他功能的預設語音。由於合成語音可能會被濫用，公司只在小範圍內與開發人員分享了該模型，未來可能不會廣泛推出這項功能。

新聞稿寫道，兒童教育科技公司Age of Learning正在使用這個模型來產生一些預先編寫好的內容，並且還結合GPT-4 創建即時的回應來與學生互動。

在案例中，OpenAI放出了一段英語男聲和西班牙語女聲的樣本音頻，並用兩段音頻各生成了講解知識的語音。

另外，數位人視訊生成新創公司HeyGen也採用了這項技術。 HeyGen可以根據內容創建客製化的數位人化身，而Voice Engine可以將樣本的聲音轉換成多種其他語言，來幫助產品行銷到銷售簡報。

新聞稿提到，在轉換語言時，Voice Engine會保留原始說話者的母語口音，例如樣本中的人使用的是法語，那么生成的英語將帶有法國口音。本週早些時候，有消息指出HeyGen正在進行新一輪融資，投前估值達4.4億美元。

除此之外，OpenAI也展示了產生較小語系和孤立語系聲音的能力，以幫助落後地區的社區健康工作者；同時也與神經科學研究所探索AI在臨床環境中的應用，例如幫助語言障礙者等用途。

“太強大了導致無法推廣”

OpenAI寫道，「我們認識到，生成聲音的功能存在嚴重風險，這一點在大選年尤為突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作，以確保我們在建立過程中吸收他們的反饋。 ”

OpenAI產品負責人Jeff Harris告訴媒體，「如果你能正確地設定音頻，基本上就能產生人類口徑的聲音，這是一種相當令人印象深刻的技術。」但Harris提到，準確模仿人類語音的能力確實有安全隱憂。

今年1月，美國就出現「AI拜登」事件，由AI生成的「假拜登」在電話中用逼真的聲音鼓勵可能支持民主黨的5,000位選民在新罕布夏州初選中不要投票。本月早些時候，拜登呼籲國會通過立法來監管AI，包括禁止「AI語音模仿」等。

在測試計畫中，OpenAI要求其合作夥伴遵守其製定的使用政策：在使用語音樣本之前要徵得聲音主人的同意，並明確告訴聽眾聲音是AI生成的。該公司還在安裝一種聽不見的音訊浮水印，以區分音訊是否是由其工具創建的。

OpenAI寫道，“無論我們最終是否會廣泛部署這項技術，讓全球各地的人們了解這個發展方向都是非常重要的。”

WONGCW 網誌