Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

微軟展示VASA-1人工智慧模型能將照片變成”會說話的人臉”

微軟展示VASA-1人工智慧模型能將照片變成”會說話的人臉”

2024-04-19 Comments 0 Comment

微軟公司的一篇新的人工智慧研究論文展望了未來:上傳一張照片和你的聲音樣本,然後創建一個活靈活現的會說話的人頭像。這款名為VASA-1的人工智慧模型可接收單張人像照片和音訊文件,並將其轉換成超逼真的人臉視頻,包括唇語同步、逼真的臉部特徵和頭部動作。

該模型目前只是研究預覽版,微軟研究團隊以外的任何人都無法試用,但演示影片看起來令人印象深刻。

Runway 和NVIDIA 已經推出了類似的唇部同步和頭部運動技術,但這種技術的品質和逼真度似乎要高得多,可以減少嘴部偽影。這種音訊驅動動畫的方法也與Google研究院最近推出的VLOGGER 人工智慧模型類似。

VASA-1 如何運作?

微軟表示,這是一個新的框架,用於創建栩栩如生的會說話的人臉,專門用於虛擬人物的動畫製作。範例中的所有人物都是合成的,是用DALL-E 製作的,但如果它能為逼真的人工智慧圖像製作動畫,那麼它也能為真實的照片製作動畫。

在演示中,我們看到人們說話時就像在被拍攝一樣,動作略顯生澀,但看起來非常自然。唇語同步令人印象深刻,動作自然,嘴部上下沒有其他工具中出現的假象。

VASA-1 最令人印象深刻的一點似乎是,它不需要正面朝上的人像圖像就能運作。

其中有面向不同方向拍攝的例子。該模型似乎還具有很強的控制能力,能夠將眼睛注視的方向、頭部距離甚至情緒作為輸入來引導生成。

VASA-1 的意義何在?

其中一個最明顯的應用案例就是遊戲中的高階唇語同步。如果能創造出具有自然唇部動作的人工智慧驅動的NPC,就能改變遊戲的沉浸感。

它還可用於為社交媒體影片創建虛擬化身,HeyGen 和Synthesia 等公司已經採用了這種技術。另一個領域是基於人工智慧的電影製作。如果能讓人工智慧歌手看起來像在唱歌,就能製作出更逼真的音樂影片。

儘管如此,該團隊表示,這只是研究演示,並沒有公開發布的計劃,甚至也不會提供給開發人員在產品中使用。

VASA-1 的效果如何?

cG8TMcoPyuq6jPbxyZZh4a-1200-80.png.webp

讓研究人員感到驚訝的是,VASA-1 能夠完美地對歌曲進行歌詞嘴型同步,儘管訓練資料集中沒有使用音樂,但它仍能毫無問題地反映歌手的歌詞。它還能處理不同風格的圖像,包括蒙娜麗莎。

他們讓它以每秒45 幀的速度創建512×512 像素的圖像,使用桌面級NVIDIA RTX 4090 GPU 可在大約2 分鐘內完成。

雖然他們說這只是用於研究,但如果它不能進入公共領域,那就太可惜了,即使只是面向開發者,鑑於微軟在OpenAI中擁有巨大的股份,這甚至可能成為未來Copilot Sora 整合的一部分。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
網友越來越年輕英國Ofcom正在權衡AI能否幫助保護他們
NEXT
玩家改裝出一副撲克牌體積大不了多少的全功能任天堂Wii

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 4 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 3 月   5 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 全面推動「凋零骷髏塔」標準化建設的網路大狂歡是怎麼開啟的? 2025-05-23
  • Windows記事本不再「簡單」 微軟為其新增AI寫作功能 2025-05-23
  • 基於Sora的微軟新工具Bing Video Creator挑戰Veo 各平台均可免費用 2025-05-23
  • 科學家發明結合紅外線和可見光的夜視鏡片 2025-05-23
  • Bluesky 將開始驗證「知名」用戶 2025-05-23
  • Anthropic CEO稱人工智慧模式產生的幻覺其實比人類少 2025-05-23
  • 這些韓國老年海女已擁有基因層面的“超能力” 2025-05-23
  • 防止顯示卡接口燒熔玩家給RTX 4090電源線裝上保險絲還有更狠的 2025-05-23
  • BMWSpeedtop概念車官圖發表售價超過400萬的雙門獵裝轎跑 2025-05-23
  • 馬雲上榜《時代》全球百大慈善人物榜單 2025-05-23

熱門文章與頁面︰

  • 微軟員工再次擾亂Satya Nadella 的主題演講
  • 您可以在Windows 11 24H2 中找回WordPad
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 索泰展示全球最小RTX 5060 Ti 16GB主機機箱容量僅2.65公升
  • 一汽豐田開卷電動車全新bZ5開啟預售:入門版價格不超13萬
  • 蘋果iPhone 16 和iPhone 16 Pro Max 原版桌布現已下載
  • 電影《尋秦記》宣布2025賀歲檔上映古天樂等原班人馬回歸
  • 彩虹-YH1000無人物流機首飛成功一口氣能飛1500公里

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.