NVIDIA展示可修改聲音和產生新聲音的AI模型Fugatto

英偉達週一展示了一種用於生成音樂和音訊的新型人工智慧模型，該模型可以修改聲音並產生新穎的聲音——該技術面向音樂、電影和視頻遊戲的製作者。該技術稱為Fugatto，是Foundational Generative Audio Transformer Opus 1 的縮寫。

該技術與Runway 等新創公司和Meta 等大型公司展示的其他技術一樣，可以根據文字提示產生音訊或視訊。

總部位於加州聖克拉拉的NVIDIA 版本可根據文字描述產生音效和音樂，包括新奇的聲音，例如讓小號發出狗叫聲。

它與其他人工智慧技術的不同之處在於，它能夠接收並修改現有音頻，例如將鋼琴演奏的樂句轉換成人聲演唱的樂句，或者將口語錄音改變口音和表達的情緒。

NVIDIA 公司應用深度學習研究副總裁布萊恩-卡坦扎羅（Bryan Catanzaro）說：”如果我們想想過去50 年的合成音頻，現在的音樂聽起來已經不同了，因為有了計算機，因為有了合成器。

雖然OpenAI等公司正在與好萊塢電影公司就是否以及如何將人工智慧用於娛樂業進行談判，但科技公司與好萊塢之間的關係已經變得緊張，尤其是在好萊塢明星斯嘉麗-約翰遜指責OpenAI模仿她的聲音之後。

NVIDIA 的新模型是在開源資料的基礎上訓練出來的，該公司表示仍在討論是否以及如何將其公開發布。

卡坦扎羅說：”任何生成技術都有一定的風險，因為人們可能會利用它來產生我們不希望他們生成的東西。我們需要對此小心謹慎，這也是我們沒有立即發布這項技術的計劃的原因。

生成式人工智慧模型的創建者尚未確定如何防止技術被濫用，例如使用者產生錯誤訊息或透過產生受版權保護的角色侵犯版權。

OpenAI 和Meta 同樣沒有透露它們計劃何時向公眾發布可生成音訊或視訊的模型。

WONGCW 網誌