Meta的新型AI模型可透過觀看影片進行學習未來也將加入聲音資料維度
Meta 公司的人工智慧研究人員發布了一個新模型,該模型的訓練方式與當今的大型語言模型類似,但它不是從書面文字中學習,而是從影片中學習。LLM 通常在數千個句子或短語中進行訓練,其中一些詞語被屏蔽,迫使模型尋找最佳詞語來填補空白,這樣,它們就能獲得對世界的基本感知。
Meta公司FAIR(基礎人工智慧研究)小組負責人Yann LeCun提出,如果人工智慧模型能在影片片段中使用相同的遮蔽技術,它們就能更快學習。
LeCun 說:”我們的目標是打造先進的機器智能,使其能夠像人類一樣學習。形成周圍世界的內部模型,以便高效地學習、適應和製定計劃,為完成複雜任務服務。”
LeCun 理論的具體體現是一種名為視訊聯合嵌入預測架構(V-JEPA)的研究模型。它透過處理無標記的影片來進行學習,並推測出在黑屏的幾秒鐘內,螢幕的某一部分可能發生了什麼。
需要注意的是,V-JEPA 並不是一個生成模型。Meta 的研究人員說,V-JEPA 在使用視訊遮蔽進行預訓練後,”擅長檢測和理解物體之間高度細緻的互動”。這項研究可能會對Meta 和更廣泛的人工智慧生態系統產生重大影響。
Meta公司之前在開發擴增實境眼鏡時曾談到過”世界模型”。這種眼鏡將使用這樣一個模型作為人工智慧助理的大腦,除此之外,它還可以預測向用戶展示哪些數位內容,以幫助用戶完成工作並獲得更多樂趣。該模型從一開始就對眼鏡外的世界具有視聽理解能力,但隨後可以透過裝置的攝影機和麥克風快速了解使用者世界的獨特特徵。
V-JEPA 也可能改變人工智慧模型的訓練方式。目前的基礎模型預訓練方法需要大量的時間和運算能力(這對生態環境有影響)。換句話說,目前開發基礎模型是富人的專利。有了更有效率的訓練方法,這種情況就會改變。這符合Meta 的策略,即以開源方式發布其大部分研究成果,而不是像OpenAI 和其他公司那樣將其作為有價值的智慧財產權加以保護。如果訓練成本降低,規模較小的開發者或許就能訓練出規模更大、能力更強的模型。
LeCun 認為,目前的模型透過視覺和聽覺進行學習,這正在減緩向人工通用智慧(通常需要比人類更聰明)發展的速度。
在V-JEPA 之後,Meta 的下一步計劃是在視頻中添加音頻,這將為模型提供一個全新的學習數據維度,這就像一個孩子在觀看靜音電視時將聲音調大一樣。孩子不僅能看到物體的移動,還能聽到人們談論物體的聲音。
Meta 公司表示,它將以知識共享(Creative Commons)非商業許可的方式發布V-JEPA 模型,讓研究人員可以對其進行實驗,或許還能擴展其功能。