Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

Meta開源AI模型引入多模態轉換聽音頻就能畫畫

Meta開源AI模型引入多模態轉換聽音頻就能畫畫

2023-05-12 Comments 0 Comment

Meta週二(5月9日)宣布了一個新的開源人工智能(AI)模型ImageBind,該模型可以將六種類型的數據流聯繫在一起。ImageBind以視覺(圖片和視頻)為核心,結合文本、聲音、3D深度、溫度、運動讀數(IMU),最終可以做到在六個模態之間的任意轉換。

ImageBind為機器提供了一個整體的理解,將照片中的物體與它們的聲音、3D形狀、冷暖程度、以及它們的移動方式聯繫起來。

Meta稱,ImageBind使機器能夠更同步、更全面、更直接地從不同信息形式中學習,進一步向人類靠攏。

AI的未來

該研究的核心概念是將多種類型的數據連接到一個嵌入空間(Embedding Space)中,正是這個概念支撐著最近生成式AI的蓬勃發展。

例如,Meta的AI圖像生成器Make-A-Scene可以在ImageBind模型的支持下,從音頻中創建圖像,例如根據雨林或熙熙攘攘的市場的聲音創建圖像。

ImageBind還可以提供一種豐富的方式來探索記憶,也就是使用文本、音頻和圖像的組合來搜索相關信息。

此外,ImageBind為研究人員開發新的整體系統提供了思路,例如結合3D和IMU傳感器來設計或體驗沉浸式虛擬世界。這不就是Meta一直以來追求的“元宇宙”嗎?

上圖是Meta在一篇博客文章中給出的案例:當輸入一段企鵝的叫聲後,ImageBind能生成企鵝的圖片;當輸入鴿子的照片和一段汽車轟鳴聲後,ImageBind能生成一張“人開車驚動鴿群”的照片;ImageBind還可以根據一段火車的音頻,生成火車的照片、相關的火車3D模型、以及一段形容火車車站的文本。

該模型目前還只是一個研究項目,沒有直接的消費者或實際應用,不過它這種交叉引用數據的模型指明了生成式AI系統的未來,因為它可以創造身臨其境的多感官體驗。

Meta在博客文章中指出,其他感官輸入流也可能會被添加到未來的模型中,包括“觸覺、聽覺、嗅覺和大腦功能磁共振成像信號”。

想像一下,在未來的一台設備上,你可以讓它模擬一次漫長的海上航行,它不僅會讓你置身於一艘以海浪為背景聲音的船上,還會讓你感受到腳下甲板的搖晃和海上空氣的涼爽。

開源與限制

當然,這一切都是推測的,而且像這樣的研究的直接應用可能會受到更多的限制。

然而,對於行業觀察者來說,這項研究很有趣,因為Meta已將其ImageBind的代碼開源,這一做法在AI領域受到愈發嚴格的審查。

OpenAI等反對開源的行業人士稱,這種做法對創造者有害,因為競爭對手可以復制他們的作品,而且這種做法可能存在潛在危險,允許惡意行為者利用最先進的人工智能模型。

不過開源的支持者反擊道,開源本質上是允許第三方開發人員作為無償員工來對模型進行改進,從而進一步產生商業效益。迄今為止,Meta一直堅定地站在開源陣營。

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
美國“天價胰島素時代”就此終結?禮來承諾未來售價不會反彈
NEXT
特斯拉幕後舵手曝光:他和朱曉彤爭奪馬斯克接班人

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2023 年 5 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
293031  
« 4 月   6 月 »

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • 日本玩家玩手機路子有多野你根本想像不到 2023-06-04
  • 一些谷歌Pixel手錶出現散架的狀況 2023-06-04
  • 美國資深女性記者呼籲塞爾達公主理應黑人可改觀黑人女性印象 2023-06-04
  • 鮮為人知的單細胞微生物可能是氣候轉折點的早期預警信號 2023-06-04
  • 大眾新款高爾夫外觀首度曝光首次增加輕混系統 2023-06-04
  • QQ音樂豪華綠鑽續費價格上調連續包年158元 2023-06-04
  • 最貴4800元阿根廷中國行被指“票價刺客” 2023-06-04
  • 神舟十五號載人飛船乘組返回地球成功著陸 2023-06-04
  • SpaceX成功測試Starlink高速在軌飛行速度幾乎是音速的兩倍 2023-06-04
  • AMD EPYC”Rome”處理器的Bug使其在34個月的正常運行後出現計劃外休眠 2023-06-04

熱門文章與頁面︰

  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 世界上有多少個國家
  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • 靠養貓養狗年入百萬:寵物博主是門怎樣的生意?
  • 盜版Windows 7還能免費升級Windows 10嗎?
  • 天翼網盤免登陸高速下載,直鏈解析不限速
  • Nreal Air AR眼鏡評測:“視覺放大器” 輕鬆實現巨幕體驗
  • 印度列車相撞事故已致死傷超千人百列火車運行受影響

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.