Meta推出Movie Gen 旗下迄今最先進的影片生成AI模型
Meta 今天發布了MovieGen 系列媒體基礎AI模型,該模型可根據文字提示產生帶有聲音的逼真影片。 MovieGen 系列包含兩個主要型號: MovieGen Video 和MovieGen Audio。
MovieGen Video 是一個具有300 億個參數的變換器模型,可根據單個文字提示生成高品質、高清晰度的圖像和視頻,生成的視頻可長達16 秒,每秒16 幀。
MovieGen Audio 是一個130 億參數的變壓器模型,可接收視訊輸入和可選的文字提示,並產生與輸入視訊同步的長達45 秒的高保真音訊。 這個新的音訊模型可以產生環境音效、器樂背景音樂和Foley 音效。 Meta 聲稱它在音訊品質、視訊與音訊對齊和文字與音訊對齊方面都能提供最先進的效果。
這些模型不僅僅用於創建全新的影片。 它們可用於使用簡單的文字提示編輯現有影片。 MovieGen 還允許使用者進行本地化編輯,例如新增、刪除或替換元素,以及進行背景或樣式變更等全域變更。 例如,如果您有一段某人扔球的視頻,並配有簡單的文字提示,您可以將視頻改為某人扔西瓜,同時保留原始內容的其餘部分。
MovieGen 模型將允許用戶創建個人化影片。 透過使用人物圖像和文字提示,這些模型可以產生保留人物特徵和動作的個人化影片。 Meta 聲稱,這些模型在影片中的人物保護和自然運動方面提供了最先進的成果。
Meta 聲稱,與其他影片生成模型(包括OpenAI Sora 和Runway Gen-3)相比,這些模型能產生更好的影片。 Meta 目前正與創意專業人士合作,在公開發布之前進一步改進該模型。
了解更多/ Meta