從文字到軌跡:麻省理工學院的AI用語言幫助機器人完成複雜的導航任務
麻省理工學院和麻省理工學院-IBM 沃森人工智慧實驗室的研究人員開發出一種新穎的人工智慧導航方法,可將視覺數據轉換為語言描述,幫助機器人完成複雜的導航任務。這種方法使用大型語言模型產生合成訓練數據,並根據語言輸入做出導航決策。雖然這種方法並不優於基於視覺的模型,但它具有資源密集度較低、更容易適應各種任務和環境的優勢。
也許有一天,您會希望家用機器人把髒衣服搬到樓下,然後放進地下室最左側角落的洗衣機。機器人需要結合您的指示和它的視覺觀察來確定完成這項任務的步驟。
對人工智慧代理來說,這說來容易做來難。目前的方法通常利用多個手工製作的機器學習模型來處理任務的不同部分,這需要大量的人力和專業知識來建立。這些方法利用視覺表徵直接做出導航決策,需要大量的視覺資料進行訓練,而這些資料往往很難取得。
為了克服這些挑戰,麻省理工學院和麻省理工學院-IBM 沃森人工智慧實驗室的研究人員設計了一種導航方法,將視覺表徵轉換為語言片段,然後將其輸入大型語言模型,從而實現多步驟導航任務的所有部分。
他們的方法不是將機器人周圍環境圖像中的視覺特徵編碼為視覺表示(這需要大量計算),而是創建描述機器人觀點的文字說明。一個大型語言模型利用這些文字說明來預測機器人為完成使用者的語言指令而應採取的行動。
由於他們的方法純粹利用基於語言的表徵,因此可以使用大型語言模型高效產生大量合成訓練資料。
雖然這種方法並沒有超越使用視覺特徵的技術,但在缺乏足夠視覺資料進行訓練的情況下,它的表現卻很出色。研究人員發現,將基於語言的輸入與視覺訊號結合可以提高導航表現。
“透過純粹使用語言作為感知表徵,我們的方法更為直接。因為所有的輸入都可以編碼成語言,所以我們可以產生人類可以理解的軌跡,”電子工程與計算機科學(EECS)研究生、有關這種方法的論文的第一作者潘博文(Bowen Pan)說。
潘的合著者包括他的顧問、麻省理工學院蘇世民電腦學院策略產業參與主任、麻省理工學院MIT-IBM沃森人工智慧實驗室主任、電腦科學與人工智慧實驗室(CSAIL)高級研究科學家奧德-奧利瓦(Aude Oliva);電子工程科學副教授、CSAIL成員菲利普-伊索拉(Philip Isola);資深作者、電子工程科學助理教授、CSAIL成員金允(Yoon Kim);以及麻省理工學院MIT-IBM沃森人工智慧實驗室和達特茅斯學院的其他人員。這項研究將在計算語言學協會北美分會會議上發表。
用語言解決視覺問題
潘說,由於大型語言模型是目前最強大的機器學習模型,因此研究人員試圖將它們融入稱為視覺語言導航的複雜任務中。然而,這類模型採用文字輸入,無法處理來自機器人攝影機的視覺資料。因此,團隊需要找到使用語言的方法。
他們的技術利用一個簡單的字幕模型來獲取機器人視覺觀察的文字描述。這些文字說明與基於語言的指令結合,並輸入一個大型語言模型,由該模型決定機器人下一步應採取的導航步驟。
大語言模型會輸出機器人在完成該步驟後應該看到的場景說明。這將用於更新歷史軌跡,以便機器人能夠追蹤到自己曾經到達過的地方。
為了簡化這個過程,研究人員設計了模板,以便將觀察資訊以標準的形式呈現給模型–即機器人可以根據周圍環境做出的一系列選擇。
例如,標題可以是”在你左側30 度的地方有一扇門,門邊有一盆植物,在你的後面有一間小辦公室,裡面有一張桌子和一台電腦”等等。由模型來選擇機器人應該往門還是往辦公室移動。
潘說:”最大的挑戰之一是,如何以適當的方式將這類訊息編碼成語言,讓代理人了解任務是什麼,以及他們應該如何回應。”
語言的優勢
在對這種方法進行測試時,他們發現這種方法雖然無法超越基於視覺的技術,但卻具有一些優點。
首先,與複雜的圖像資料相比,文字合成所需的計算資源更少,因此他們的方法可用於快速生成合成訓練資料。在一次測試中,他們根據10 個真實世界的視覺軌跡產生了10000 個合成軌跡。
該技術還能彌補在模擬環境中訓練出來的代理人在真實世界中表現不佳的缺陷。這種差距經常出現,因為電腦生成的影像會因光線或顏色等因素而與真實世界的場景大相徑庭。但潘說,描述合成影像與真實影像的語言就很難區分了。
此外,他們的模型所使用的表達方式也更容易被人類理解,因為它們是用自然語言編寫的。
“如果代理未能達到目標,我們可以更容易地確定它在哪裡失敗以及失敗的原因。也許歷史信息不夠清晰,或者觀察結果忽略了一些重要細節,”潘說。
此外,他們的方法可以更容易地應用於不同的任務和環境,因為它只使用一種類型的輸入。只要資料可以編碼成語言,他們就可以使用相同的模型,而無需做任何修改。但缺點之一是,他們的方法自然會失去一些基於視覺的模型所能捕捉到的訊息,例如深度資訊。
然而,研究人員驚訝地發現,將基於語言的表徵與基於視覺的方法相結合,可以提高代理的導航能力。他說:”也許這意味著語言可以捕捉到一些純視覺特徵無法捕捉到的更高層次的訊息。”
這是研究人員希望繼續探索的一個領域。他們還希望開發一種以導航為導向的字幕機,以提高該方法的性能。此外,他們還想探究大型語言模型表現出空間意識的能力,看看這將如何幫助基於語言的導航。
編譯自/ ScitechDaily