一種新的機器學習模型可以以人類的方式理解場景中的互動關係
當人類看一個場景時,他們看到的是物體和它們之間的關係。 在桌子上面,可能有一台筆記型電腦,人坐在手機的左邊,而手機在電腦顯示器的前面。 許多深度學習模型在以這種方式看世界時很吃力,因為它們不瞭解單個物體之間的糾纏關係。 如果不瞭解這些關係,一個旨在幫助廚房裡的幫廚機器人將很難遵循”拿起爐子左邊的鏟子,把它放在砧板上”這樣的命令。
為了解決這個問題,麻省理工學院的研究人員開發了一個模型,可以理解場景中物體之間的基本關係。 他們的模型每次都代表單個關係,然後結合這些代表來描述整個場景。 這使得該模型能夠從文本描述中生成更準確的圖像,即使場景中包括幾個以不同關係排列的物體。
這項工作可以應用於工業機器人必須執行複雜的、多步驟的操縱任務的情況,如在倉庫中堆放物品或組裝電器。 它還使該領域向著使機器能夠像人類一樣從環境中學習並與環境互動的方向邁進了一步。
研究人員開發的框架可以根據對物體及其關係的文字描述生成一個場景的圖像,在這個圖中,研究人員的最終圖像在右邊,並正確地遵循了文字描述。
“當我看著一張桌子時,我不能說在XYZ位置有一個物體。 我們的頭腦不是這樣工作的。 在我們的頭腦中,當我們理解一個場景時,我們真正理解它是基於物體之間的關係。 我們認為,通過建立一個能夠理解物體之間關係的系統,我們可以利用該系統更有效地操縱和改變我們的環境,”計算機科學和人工智慧實驗室(CSAIL)的博士生、該論文的共同主要作者杜一倫(音譯)說。
杜一倫與共同第一作者、CSAIL博士生李爽(音譯)和伊利諾伊大學香檳分校研究生劉楠(音譯),以及腦與認知科學系認知科學與計算專業保羅-E-牛頓職業發展教授、CSAIL成員Joshua B. Tenenbaum,以及資深作者、電氣工程與計算機科學專業德爾塔電子教授、CSAIL成員Antonio Torralba共同撰寫了該論文。 這項研究將在12月舉行的神經資訊處理系統會議上發表。
他們的系統會將這些句子分解成兩個較小的片段,描述每個單獨的關係(”一張木桌在藍色凳子的左邊”和”一張紅色沙發在藍色凳子的右邊”),然後對每個部分單獨建模。 然後通過一個優化過程將這些部分結合起來,生成一個場景的圖像。
研究人員使用了一種叫做基於能量的模型的機器學習技術來表示場景描述中的各個物體關係。 這種技術使他們能夠使用一個基於能量的模型對每個關係描述進行編碼,然後以一種推斷所有物體和關係的方式將它們組合起來。
李解釋說,通過將每個關係的句子分解成更短的片段,系統可以以各種方式重新組合它們,因此它能夠更好地適應它以前沒有見過的場景描述。
“其他系統會從整體上考慮所有的關係,並從描述中一次性生成圖像。 然而,當我們有分佈之外的描述時,比如有更多關係的描述時,這樣的方法就會失敗,因為這些模型不能真正適應一次就能生成包含更多關係的圖像。 然而,由於我們將這些單獨的、較小的模型組合在一起,我們可以對更多的關係進行建模,並適應新穎的組合,”杜說。
該系統還可以反向工作–給定一張圖像,它可以找到與場景中物體之間關係相匹配的文本描述。 此外,他們的模型可以用來編輯圖像,重新安排場景中的物體,使它們與新的描述相匹配。
理解複雜場景
研究人員將他們的模型與其他深度學習方法進行了比較,這些方法得到了文本描述,並負責生成顯示相應物體及其關係的圖像。 在每一種情況下,他們的模型都優於基線。
他們還要求人類評估所生成的圖像是否與原始場景描述相符。 在最複雜的例子中,描述包含三種關係,91%的參與者認為新模型的表現更好。
“我們發現的一個有趣的事情是,對於我們的模型,我們可以把句子從有一個關係描述增加到有兩個,或三個,甚至四個描述,而且我們的方法繼續能夠生成被這些描述正確描述的圖像,而其他方法則失敗了,”杜說。
研究人員還向模型展示了它以前沒有見過的場景圖像,以及每張圖像的幾種不同的文字描述,它能夠成功地識別出最符合圖像中物體關係的描述。
當研究人員給系統提供兩個描述同一圖像但方式不同的關係型場景描述時,該模型能夠理解這些描述是等同的。
研究人員對他們的模型的魯棒性印象深刻,特別是在處理它以前沒有遇到過的描述時。
“這是非常有希望的,因為這更接近於人類的工作方式。 人類可能只看到幾個例子,但我們可以從這幾個例子中提取有用的資訊,並把它們結合起來,創造出無限的組合。 而我們的模型有這樣一個特性,使它能夠從較少的數據中學習,但卻能概括到更複雜的場景或圖像代。 “李說。
雖然這些早期結果令人鼓舞,但研究人員希望看到他們的模型在真實世界的圖像上表現如何,這些圖像更加複雜,有嘈雜的背景和相互遮擋的物體。
他們還有興趣最終將他們的模型納入機器人系統,使機器人能夠從視頻中推斷出物體關係,然後應用這些知識來操縱世界上的物體。
捷克技術大學捷克資訊學、機器人學和控制論研究所的傑出研究員Josef Sivic說:”開發能夠處理我們周圍世界的組成性質的視覺表徵是計算機視覺中的一個關鍵性的開放問題。 這篇論文在這個問題上取得了重大進展,它提出了一個基於能量的模型,明確地對圖像中描繪的物體之間的多種關係進行建模。 這些結果確實令人印象深刻,他沒有參與這項研究。 “