Meta推出Movie Gen 旗下迄今最先進的影片生成AI模型

Meta 今天發布了MovieGen 系列媒體基礎AI模型，該模型可根據文字提示產生帶有聲音的逼真影片。 MovieGen 系列包含兩個主要型號： MovieGen Video 和MovieGen Audio。

MovieGen Video 是一個具有300 億個參數的變換器模型，可根據單個文字提示生成高品質、高清晰度的圖像和視頻，生成的視頻可長達16 秒，每秒16 幀。

MovieGen Audio 是一個130 億參數的變壓器模型，可接收視訊輸入和可選的文字提示，並產生與輸入視訊同步的長達45 秒的高保真音訊。這個新的音訊模型可以產生環境音效、器樂背景音樂和Foley 音效。 Meta 聲稱它在音訊品質、視訊與音訊對齊和文字與音訊對齊方面都能提供最先進的效果。

這些模型不僅僅用於創建全新的影片。它們可用於使用簡單的文字提示編輯現有影片。 MovieGen 還允許使用者進行本地化編輯，例如新增、刪除或替換元素，以及進行背景或樣式變更等全域變更。例如，如果您有一段某人扔球的視頻，並配有簡單的文字提示，您可以將視頻改為某人扔西瓜，同時保留原始內容的其餘部分。

MovieGen 模型將允許用戶創建個人化影片。透過使用人物圖像和文字提示，這些模型可以產生保留人物特徵和動作的個人化影片。 Meta 聲稱，這些模型在影片中的人物保護和自然運動方面提供了最先進的成果。

Meta 聲稱，與其他影片生成模型（包括OpenAI Sora 和Runway Gen-3）相比，這些模型能產生更好的影片。 Meta 目前正與創意專業人士合作，在公開發布之前進一步改進該模型。

了解更多/ Meta

WONGCW 網誌