剛炮轟完GPT模式楊立昆推出首個“世界模型”
Meta宣布推出首個“類人(human-like)”AI模型I-JEPA。這是第一個基於Meta首席AI科學家楊立昆(Yann LeCun)願景關鍵組成部分的AI模型,據稱能比現有模型更準確地分析和完成未完成的圖像。
在上週舉辦的背景智源大會上,楊立昆在發表致辭演講時鬥志昂揚地駁斥了GPT的邏輯,說自回歸模型沒有規劃、推理的能力,單純根據概率生成自回歸的大語言模型從本質上根本解決不了幻覺、錯誤的問題,並給出了他認為的正確答案——世界模型。
楊立昆去年提出了一種新的架構,旨在克服當今最先進的AI系統的關鍵限制。他的願景是創造出能夠學習世界如何運作的內部模型的機器,這樣它們就可以更快地學習,計劃如何完成複雜的任務,並隨時適應不熟悉的情況。
基於LeCun願景關鍵組成部分,今日發布的圖像聯合嵌入預測架構(I-JEPA),通過創建外部世界的內部模型來學習,該模型比較圖像的抽象表示(而不是比較像素本身)。
I-JEPA在多個計算機視覺任務上提供了強大的性能,並且比其他廣泛使用的計算機視覺模型的計算效率高得多。I-JEPA學習的表示也可以用於許多不同的應用程序,而不需要進行大量的微調。
例如,Meta研究人員在72小時內使用16個A100 GPU訓練了一個擁有6.32億個參數的視覺Transformer模型,並且它在ImageNet上實現了最先進的少樣本分類性能,每個類只有12個標記示例,其他方法通常需要2到10倍以上的GPU時,並在使用相同數量的數據進行訓練時獲得更低的錯誤率。
I-JEPA相關論文將在下週的CVPR 2023上發表,訓練代碼和模型檢查點的源代碼已開放。

論文地址:
項目地址:
Meta AI博客文章全文編譯如下:
01通過自監督學習獲取常識性知識
Meta在I-JEPA(以及更普遍的聯合嵌入預測架構(JEPA)模型)上的工作基於這樣一個事實:人類通過被動地觀察世界來學習大量關於世界的背景知識。
據推測,這種常識性信息是實現智能行為的關鍵,例如樣本高效獲取新概念、基礎和計劃。
AI研究人員試圖設計學習算法,捕捉有關世界的常識背景知識,然後將其編碼為算法以後可以訪問的數字表示。
為了提高效率,系統必須以自監督的方式學習這些表徵——也就是說,直接從圖像或聲音等未標記的數據中學習,而不是從人工組裝的標記數據集中學習。
在較高的層次上,JEPA旨在通過相同輸入的其他部分的表示來預測輸入部分(如圖像或文本)的表示。因為它不涉及將圖像的多個視圖/增強表示折疊到單個點,所以希望JEPA能夠避免與另一種廣泛使用的稱為基於不變性的預訓練的方法相關的偏差和問題。
與此同時,通過在高抽像水平上預測表徵,而不是直接預測像素值,Meta希望直接學習有用的表徵,同時避免生成方法的局限性,這是大型語言模型的基礎,最近已經產生瞭如此多令人興奮的進展。
相比之下,生成式架構通過刪除或扭曲模型輸入的部分來學習,例如刪除照片的一部分或隱藏文本段落中的一些單詞。然後,他們嘗試預測損壞或丟失的像素或單詞。
然而,生成式AI方法的一個顯著缺點是,模型試圖填補每一點缺失的信息,即使世界本身是不可預測的。因此,生成式AI方法可能容易犯一些人們永遠不會犯的錯誤,因為它們過於關注不相關的細節,而不是捕捉高層次的可預測概念,例如生成式AI模型很難準確地生成人手。(他們經常會添加額外的數字或犯其他明顯的錯誤。)

▲自監督學習的通用架構,其中系統學習捕捉其輸入之間的關係。目標是為不兼容的輸入分配一個高能量,並為兼容的輸入分配一個低能量。(a) 聯合嵌入(不變)體系結構學習為兼容輸入x、y輸出相似嵌入,為不兼容輸入輸出不同嵌入。(b) 生成式架構學習從兼容信號x直接重構信號y,使用以附加(可能是潛在的)變量z為條件的解碼器網絡來促進重構。(c) 聯合嵌入預測架構學習從兼容信號x中預測信號y的嵌入,使用以附加(可能是潛在的)變量z為條件的預測網絡來促進預測。
02邁向具有廣泛功能的聯合嵌入預測架構的第一步
I-JEPA背後的想法是用一種更接近於人們一般理解的抽象表示來預測缺失的信息。
與在像素/標記空間進行預測的生成方法相比,I-JEPA使用抽象的預測目標,可以消除不必要的像素級細節,從而使模型學習更多的語義特徵。引導I-JEPA生成語義表示的另一個核心設計選擇是提出的多塊屏蔽策略。
具體來說,Meta研究人員證明了使用信息(空間分佈)上下文預測包含語義信息(具有足夠大的規模)的大型塊的重要性。

▲I-JEPA使用單個上下文塊來預測來自同一圖像的各種目標塊的表示。上下文編碼器是一個視覺Transformer(ViT),它只處理可見的上下文補丁。預測器是一個狹窄的ViT,它接受上下文編碼器的輸出,並根據目標的位置標記(以顏色顯示)來預測目標塊在特定位置的表示。目標表示對應於目標編碼器的輸出,其權重通過上下文編碼器權重的指數移動平均值在每次迭代中更新。
I-JEPA中的預測器可以看作是一個原始的(受限制的)世界模型,它能夠從部分可觀察的環境中對靜態圖像中的空間不確定性進行建模。更重要的是,這個世界模型是語義的,因為它預測圖像中未見區域的高級信息,而不是像素級的細節。

▲說明了預測器是如何學習對世界的語義建模的。對於每個圖像,藍色框外的部分被編碼並作為上下文提供給預測器。預測器輸出它在藍色框內的區域中所期望的表示。為了可視化預測,我們訓練了一個生成模型,該模型生成由預測器輸出表示的內容的草圖,並且我們在藍色框中顯示了一個示例輸出。顯然,預測器能夠識別應該填充哪些部分的語義(狗的頭頂、鳥的腿、狼的腿、建築物的另一邊)。
為了理解模型捕獲的是什麼,Meta訓練了一個隨機解碼器,它將I-JEPA預測的表示映射回像素空間,當在藍色框內進行預測時,它顯示了模型的輸出。這種定性評估表明,該模型正確地捕捉了位置的不確定性,並產生了具有正確姿勢的高級物體部件(例如,狗的頭,狼的前腿)。
簡而言之,I-JEPA能夠學習對象部件的高級表示,而不會丟棄它們在圖像中的局部位置信息。
03更高的效率和強大的性能
I-JEPA預訓練的計算效率也很高。它不涉及與應用更多計算密集型數據增強來生成多個視圖相關的任何開銷。目標編碼器只需處理圖像的一個視圖,並且上下文編碼器只需處理上下文塊。
根據經驗,Meta發現I-JEPA無需使用人工製作的視圖增強即可學習強大的現成語義表示(參見下圖)。它在ImageNet-1K線性探測和半監督評估上也優於像素和標記重建方法。

▲ImageNet-1k上的線性評估性能作為GPU預訓練小時數的函數。
I-JEPA還與以前依賴於語義任務上手工製作的數據增強的預訓練方法相競爭。與這些方法相比,I-JEPA在物體計數和深度預測等低級視覺任務上取得了更好的性能。
通過使用更簡單的模型和更少的剛性歸納偏差,I-JEPA適用於更廣泛的任務集。

▲低鏡頭分類精度:在ImageNet-1k上使用1%的標籤進行半監督評估(每個類大約12個標記圖像)。
04結語:人工智能向人類水平邁進了一步
I-JEPA展示了學習競爭性現成圖像表示的架構的潛力,而不需要通過手工製作的圖像轉換編碼額外的知識。
推進JEPAs從更豐富的模式中學習更一般的世界模型將是特別有趣的,例如,使人們能夠從短上下文中對視頻中的未來事件做出長期的空間和時間預測,並根據音頻或文本提示調節這些預測。
Meta研究人員期待著將JEPA方法擴展到其他領域,如圖像-文本配對數據和視頻數據。
未來,JEPA模型可能會在視頻理解等任務上有令人興奮的應用。這是應用和擴展自監督方法來學習世界一般模型的重要一步。