麻省理工學院最新的計算機視覺算法可識別精確到像素的圖像
對於人類來說,識別一個場景中的物品是非常簡單的一件事。但是對於人工智能和計算機視覺系統來說,發展對其周圍環境的高保真理解需要更多的努力,如果我們說得具體一點,大約需要800小時的手工標記訓練圖像的努力。為了幫助機器更好地看到人的方式,麻省理工學院CSAIL的一個研究小組與康奈爾大學和微軟合作,開發了STEGO,一種能夠識別圖像到單個像素的算法。
通常情況下,創建CV訓練數據需要人類在圖像中的特定對象周圍畫上方框–比如,在坐在一片草地上的狗周圍畫上方框–並給這些方框貼上里面的東西(”狗”),這樣,在上面訓練的AI就能把狗和草地區分開來。相反,STEGO(基於能量的圖譜優化的自我監督轉化器)使用一種被稱為語義分割的技術,它將類別標籤應用於圖像中的每個像素,使人工智能對其周圍的世界有一個更準確的看法。
一個有標籤的盒子會把物體加上周圍像素中的其他項目放在盒子的邊界內,而語義分割給物體中的每個像素都貼上標籤,但只有構成物體的像素–你只得到狗的像素,而不是狗的像素加上一些草。這是機器學習,相當於在Photoshop中使用智能套索與矩形劃線工具。
這種技術的問題主要出現在範圍上,傳統的多鏡頭監督系統通常需要數千,甚至數十萬的標記圖像來訓練算法。乘以組成256×256的單一圖像的65536個單獨的像素,所有這些像素現在也需要被單獨標記,所需的工作量迅速上升到不可能完成。
相反,”STEGO尋找在整個數據集中出現的類似物體,”CSAIL團隊在周四的一份新聞稿中寫道。”然後它將這些類似的物體聯繫在一起,在它所學習的所有圖像中構建一個一致的世界觀。
“如果你在看腫瘤掃描、行星表面或高分辨率的生物圖像,如果沒有專家知識,你很難知道要尋找什麼對象。在新興領域,有時甚至人類專家也不知道正確的對象應該是什麼,”麻省理工學院CSAIL博士生,微軟軟件工程師,以及論文的主要作者馬克-漢密爾頓說。”在這些類型的情況下,需要設計一種方法在科學的邊界上運作,尤其是不能依靠人類在機器之前弄清楚的情況下。”
研究人員在各種各樣的圖像領域–從家庭內部到高空航拍–上進行了訓練,結果顯示STEGO的性能是以前語義分割方案的兩倍,並且與人類控制的圖像評估密切相關。更重要的是,”當應用於無人駕駛汽車數據集時,STEGO成功地分割出了道路、人和街道標誌,其分辨率和顆粒度比以前的系統高得多。”麻省理工學院CSAIL團隊寫道:”在來自太空的圖像上,該系統將地球表面的每一平方英尺都分解為道路、植被和建築物。”
“在製作一個理解潛在的複雜數據集的通用工具時,我們希望這種類型的算法能夠使從圖像中發現物體的科學過程自動化,”漢密爾頓說。”有很多不同的領域,在這些領域中,人類的標籤將是非常昂貴的,或者人類甚至根本不知道具體的結構,比如在某些生物和天體物理領域。我們希望未來的工作能夠應用於非常廣泛的數據集。由於你不需要任何人類標籤,我們現在可以開始更廣泛地應用ML工具。”
儘管其性能優於之前的系統,但STEGO也有其局限性。例如,它可以將意大利面和玉米糝都識別為”食品”,但不能很好地區分它們。它還會被一些無意義的圖像所迷惑,比如說坐在電話聽筒上的一根香蕉。這是一種食品還是生活用品?STEGO無法分辨。該團隊希望在未來的迭代中建立更多的靈活性,使該系統能夠識別多個類別的物體。