騰訊混元視訊生成工俱全新開源:人物不會“變臉” 物體不會“漂移”
騰訊混元宣布今天正式推出並開源全新的多模態客製化影片產生工具HunyuanCustom。據悉,該模型基於混元視訊生成大模型(HunyuanVideo)打造,主體一致性效果超過現有的開源方案。
根據介紹,HunyuanCustom融合文字、影像、音訊、視訊等多模態輸入生視訊的能力,是一款具備高度控制力和生成品質的智慧視訊創作工具。
騰訊表示,HunyuanCustom模型可實現單主體視訊生成、多主體視訊生成、單主體視訊配音、視訊局部編輯等能力,其產生的視訊與使用者輸入的參考主體能保持高度一致。
在部分場景下,創作者希望保持人物一致的情況下,改變人物所在的環境和動作。
但先前的影片生成模型都無法實現。
而HunyuanCustom透過引入身份增強機制和多模態融合模組,真正實現「圖像提供身份,文字定義一切」。
HunyuanCustom可以滿足影片創作者、短片部落客、電商從業人員、廣告創意人等不同使用者和場景的需求。
例如,在廣告場景中,可以快速變換商品背景、模特兒可以快速換衣服;在電商和客服場景中,可以快速低成本製作出生動的數位人商品介紹視頻,或者製作特定穿著的數位人客服視頻;在影視場景中,快速製作短劇和小故事短視頻。
此外,透過業界領先的主體一致性建模能力,HunyuanCustom在單人、非人物體、多主體互動等多種場景,都能保持身分特徵在視訊全程的一致性與連貫性。人物不會“變臉”,物體不會“漂移”。
目前,單主體生成能力已經開源並在混元官網上線,用戶可以在“模型廣場-圖生視頻-參考生視頻”中體驗,其他能力將於5月內陸續對外開源。
在單主體生成能力下,使用者只需上傳一張目標人物或物件的圖片,並提供一句如「他正在遛狗」的文字描述,Hunyuan Custom就能在完全不同的動作、服飾與場景中產生連貫自然的影片內容。

在多主體影片的生成中,使用者提供一張人物和一張物件的照片,並輸入文字描述,即可能讓這兩個主體依要求出現在影片中。

而Hunyuan Custom不止於圖像和文字的配合,也具備強大的擴展能力。
在音訊驅動(單主體)模式下,使用者可以上傳人物影像並配上音訊語音,模型便可產生人物在任意場景中說話、唱歌或進行其他音訊和視訊同步表演的效果,廣泛適用於數位人直播、虛擬客服、教育演示等場景。

在視訊驅動模式下,Hunyuan Custom支援將圖片中的人物或物體自然地替換或插入到任意視訊片段中,進行創意植入或場景擴展,輕鬆實現視訊重構與內容增強。
