Meta開源多感官人工智能模型結合六種類型的數據
Meta公司宣布了一個新的開源人工智能模型,將多個數據流聯繫在一起,包括文本、音頻、視覺數據、溫度和運動讀數。該模型目前只是一個研究項目,沒有直接的消費者或實際應用,但它指出了生成性人工智能係統的未來,可以創造沉浸式的多感官體驗,並表明在OpenAI和Google等競爭對手變得越來越神秘的時候,Meta繼續分享人工智能研究。
該研究的核心概念是將多種類型的數據連接起來,形成一個單一的多維指數(或”嵌入空間”,用人工智能的說法)。這個想法可能看起來有點抽象,但正是這個概念支撐著最近生成性人工智能的蓬勃發展。
例如,像DALL-E、Stable Diffusion和Midjourney這樣的人工智能圖像生成器都依賴於在訓練階段將文本和圖像聯繫起來的系統。他們在視覺數據中尋找模式,同時將這些信息與圖像的描述聯繫起來。這就是使這些系統能夠按照用戶的文字輸入生成圖片的原因。許多以同樣方式生成視頻或音頻的人工智能工具也是如此。
Meta公司說,其模型ImageBind是第一個將六種類型的數據結合到一個單一的嵌入空間的模型。該模型包括的六種數據是:視覺(圖像和視頻形式);熱能(紅外圖像);文本;音頻;深度信息;以及最有趣的–由慣性測量單元或IMU產生的運動讀數。(IMU存在於手機和智能手錶中,它們被用於一系列任務,從將手機從橫向切換到縱向到區分不同類型的身體活動)。
Meta博客文章中的一張截圖,顯示了不同類型的鏈接數據,例如,火車的圖片、火車鳴笛的音頻,以及關於火車三維形狀的深度信息。
Meta的ImageBind模型結合了六種類型的數據:音頻、視覺、文本、深度、溫度和運動。
我們的想法是,未來的人工智能係統將能夠交叉引用這些數據,就像目前的人工智能係統處理文本輸入一樣。例如,想像一下,一個未來的虛擬現實設備不僅能產生音頻和視覺輸入,還能產生你在物理舞台上的環境和運動。你可能會要求它模擬一次漫長的海上航行,它不僅會把你放在一艘船上,背景是海浪的噪音,而且還有甲板在你腳下的搖晃和海洋空氣的涼風。
在一篇博文中,Meta公司指出,其他的感官輸入流可以被添加到未來的模型中,包括”觸摸、語言、氣味和大腦fMRI信號”。它還聲稱這項研究”使機器離人類同時、全面和直接從許多不同形式的信息中學習的能力更近了一步”。
當然,這都是非常推測性的,而且像這樣的研究的直接應用很可能會更有限。例如,去年,Meta公司展示了一個人工智能模型,可以從文本描述中生成短小而模糊的視頻。像ImageBind這樣的工作顯示了該系統的未來版本如何納入其他數據流,例如,生成音頻以匹配視頻輸出。
不過,對於行業觀察者來說,這項研究也很有趣,因為Meta公司正在開放底層模型–這是人工智能世界中越來越受到關注的做法。
那些反對開源的人,比如OpenAI說這種做法對創作者有害,因為對手可以復制他們的作品,而且這可能有潛在的危險,讓惡意的行為者利用最先進的人工智能模型。倡導者回應說,開放源代碼允許第三方仔細檢查系統的缺陷,並改善它們的一些缺陷。他們指出,這甚至可以提供商業利益,因為它基本上允許公司招募第三方開發人員作為無償工人來改進他們的工作。
到目前為止,Meta一直堅定地站在開源陣營中,儘管並非沒有困難。(例如,其最新的語言模型LLaMA今年早些時候在網上洩露了。) 在許多方面,它在人工智能方面缺乏商業成就(該公司沒有可以與Bing、Bard或ChatGPT匹敵的聊天機器人),這使得這種做法成為可能。同時,通過ImageBind,它正在繼續實施這一戰略。