MIT的人工智能模型加快了自動駕駛汽車的高分辨率計算機視覺速度
麻省理工學院和麻省理工學院-IBM 沃森人工智能實驗室的研究人員推出了一種計算機視覺模型EfficientViT,它可以加快高分辨率圖像的實時語義分割,並針對硬件有限的設備(如自動駕駛汽車)進行優化。
自動駕駛汽車必須快速、準確地識別所遇到的物體,從停在街角的空轉送貨車到呼嘯駛向十字路口的騎車人。
用於高分辨率計算機視覺的機器學習模型可以在邊緣設備上實現計算密集型視覺應用,如自動駕駛或醫療圖像分割。圖為藝術家對自動駕駛技術的詮釋。圖片來源:麻省理工學院新聞
為此,自動駕駛汽車可能會使用強大的計算機視覺模型,對場景高分辨率圖像中的每個像素進行分類,這樣就不會忽略低質量圖像中可能被遮擋的物體。但是,這項被稱為語義分割的任務非常複雜,在圖像分辨率較高的情況下需要進行大量計算。
來自麻省理工學院、麻省理工學院-IBM 沃森人工智能實驗室和其他機構的研究人員開發出了一種更高效的計算機視覺模型,大大降低了這項任務的計算複雜度。他們的模型可以在硬件資源有限的設備上實時準確地執行語義分割,例如可以讓自動駕駛汽車做出瞬間決策的車載計算機。
優化實時處理
近期最先進的語義分割模型直接學習圖像中每對像素之間的相互作用,因此它們的計算量會隨著圖像分辨率的提高而呈四倍增長。正因為如此,這些模型雖然準確,但速度太慢,無法在傳感器或移動電話等邊緣設備上實時處理高分辨率圖像。
麻省理工學院的研究人員為語義分割模型設計了一種新的構建模塊,它能實現與這些最先進模型相同的能力,但計算複雜度僅為線性,而且操作具有硬件效率。
由此產生了一個用於高分辨率計算機視覺的新模型系列,當部署在移動設備上時,其執行速度比以前的模型快達九倍。重要的是,這一新的模型系列顯示出與這些替代模型相同或更高的精度。
EfficientViT 可使自動駕駛汽車高效地執行語義分割,這是一項高分辨率計算機視覺任務,涉及對場景中的每個像素進行分類,以便汽車能夠準確識別物體。圖為演示視頻中的一張照片,顯示了用於物體分類的不同顏色。圖片由研究人員提供
近距離觀察解決方案
這項技術不僅能幫助自動駕駛汽車實時做出決策,還能提高其他高分辨率計算機視覺任務的效率,例如醫學圖像分割。
“雖然研究人員使用傳統的視覺變換器已經有很長一段時間了,而且它們也取得了令人驚嘆的成果,但我們希望人們也能關注這些模型的效率方面。我們的工作表明,大幅減少計算量是有可能的,這樣就可以在設備本地進行實時圖像分割。”電子工程與計算機科學系(EECS)副教授、麻省理工學院-IBM 沃森人工智能實驗室(MIT-IBM Watson AI Lab)成員、描述新模型的論文的資深作者韓松(音譯)說。
與他一起撰寫論文的還有論文的第一作者、電子工程與計算機科學系研究生蔡涵、浙江大學本科生李俊彥、清華大學本科生胡慕妍以及麻省理工學院-IBM 沃森人工智能實驗室的主要研究人員甘創。這項研究將在計算機視覺國際會議上發表。
簡化的解決方案
對機器學習模型來說,對可能有數百萬像素的高分辨率圖像中的每個像素進行分類是一項艱鉅的任務。最近,一種被稱為視覺轉換器的強大新型模型得到了有效應用。
變換器最初是為自然語言處理而開發的。在這種情況下,它們將句子中的每個單詞編碼為一個標記,然後生成一個注意力圖譜,該圖譜捕捉每個標記與所有其他標記之間的關係。當模型進行預測時,該注意力圖有助於理解上下文。
使用相同的概念,視覺轉換器會將圖像分割成像素片,並將每個小片編碼為一個標記,然後生成注意力圖。在生成這張註意力圖時,模型會使用一個相似度函數,直接學習每對像素之間的相互作用。這樣,該模型就形成了所謂的全局感受野,這意味著它可以訪問圖像的所有相關部分。
由於高分辨率圖像可能包含數百萬像素,並分成數千個片段,因此註意力圖譜很快就會變得非常龐大。因此,隨著圖像分辨率的提高,計算量也會呈四倍增長。
在名為EfficientViT 的新模型系列中,麻省理工學院的研究人員採用了一種更簡單的機制來構建注意力圖譜–用線性相似函數取代非線性相似函數。因此,他們可以重新安排運算順序,在不改變功能和丟失全局感受野的情況下減少總計算量。在他們的模型中,預測所需的計算量隨著圖像分辨率的提高而線性增長。
“但天下沒有免費的午餐。線性注意力只能捕捉到圖像的全局背景,會丟失局部信息,從而使準確性變差,”Han 說。為了彌補精度損失,研究人員在模型中加入了兩個額外的元素,每個元素只增加少量計算量。
其中一個組件可以幫助模型捕捉局部特徵的相互作用,減輕線性函數在局部信息提取方面的弱點。第二個元素是實現多尺度學習的模塊,幫助模型識別大型和小型物體。
蔡涵說:”這裡最關鍵的部分是,我們需要仔細平衡性能和效率。”他們設計的EfficientViT採用了硬件友好型架構,因此更容易在不同類型的設備上運行,如VR頭顯或自動駕駛汽車的邊緣計算機。他們的模型還可以應用於其他計算機視覺任務,如圖像分類。
簡化語義分割
當他們在用於語義分割的數據集上測試他們的模型時,他們發現該模型在NVIDIA圖形處理器(GPU)上的運行速度比其他流行的視覺變換器模型快9倍,而且準確率相同或更高。
韓松說:”現在,我們可以兩全其美,降低運算速度,使其足以在移動和雲設備上運行。”在這些成果的基礎上,研究人員希望將這項技術應用於加速生成式機器學習模型,例如用於生成新圖像的模型。他們還希望繼續擴大EfficientViT 在其他視覺任務中的應用。
AMD公司人工智能算法高級總監Lu Tian說:”韓松教授團隊首創的高效變換器模型現已成為檢測和分割等各種計算機視覺任務中尖端技術的支柱。他們的研究不僅展示了變換器的效率和能力,還揭示了其在現實世界應用中的巨大潛力,例如提高視頻遊戲中的圖像質量。”
“模型壓縮和輕量級模型設計是實現高效人工智能計算的關鍵研究課題,尤其是在大型基礎模型方面。韓松教授的研究小組在壓縮和加速現代深度學習模型,特別是視覺變換器方面取得了顯著進展。”甲骨文公司人工智能和機器學習全球副總裁傑伊-傑克遜(Jay Jackson)補充說,他沒有參與這項研究。”甲骨文云計算基礎架構一直在支持他的團隊推進這項具有影響力的研究,以實現高效、綠色的人工智能。”