Facebook介紹可對圖像和視頻進行細分的自我監督學習AI
Facebook今日宣布了與Inria合作開發的DINO算法,特點是無需對數據進行標記,就能夠對transformers機器學習模型進行訓練。具體說來是,作為計算機視覺領域中最困難的挑戰之一,其需要人工智能對圖像中的內容進行理解。但Facebook介紹的這個新模型,能夠在不指定特定目標的情況下,發現和分割圖像/視頻中的對象。
FB DINO 系統能夠以無監督的方式細分圖像
傳統上的細分(Segmentation)操作是在監督學習的情況下執行的,且需要投餵標註了大量註釋的示例數據。
在有監督的學習中,算法會在為特定輸出註釋的輸入數據上開展訓練,直到它們可以檢測到輸入和輸出結果之間的潛在關係為止。
但在可自我監督學習(DINO)的方案下,系統能夠主動對未標記的數據進行分類和處理。
Transformers 使得AI 模型能夠選擇性地專注於其輸入的一部分,從而使它們能夠更有效地進行推理。
而在應用於語音和自然語言處理之前,轉換器就已經被用於解決計算機視覺問題、以及圖像的分類和檢測。
自我專注層(Self-Attention Layers)是所謂的Vision Transformers 的核心部分,每個空間位置都通過參考其他位置來表示。
這樣當查看其它距離可能較遠的圖像時,轉換器就能對整個場景建立起豐富而高級的理解。
通過在相同圖像的不同視圖上匹配模型輸出,DINO 能夠有效地發現目標對象和跨圖像的共享特徵。此外DINO 可基於視覺屬性來連接各種類型,以類似於生物分類的結構,來清楚地分辨不同動物物種。
Facebook 聲稱,即使不以此為目的而進行設計,DINO 也是識別圖像副本的最佳工具之一。展望將來,基於DINO 的模型,還可用於識別錯誤信息或版權侵犯行為。
Facebook 在博客中寫道:通過在轉換器上進行自我監督學習,DINO 為打造創造性的機器學習應用而提供了一個機遇,使得機器能夠更深入地理解圖像和視頻。
目前需要人工標註的數據,已經成為了計算機視覺系統發展的一個主要瓶頸。但通過DINO 方案,註釋的效率可以更高,並將模型用於更大的任務集,且有可能擴展其可識別的概念的數量。
最後,Facebook 今天還詳細介紹了一種被稱作PAWS 的新機器學習方案。與此前的半監督方案和新技術相比,該公司的半監督方法具有更好的分類準確度。
值得一提的是,其所需的訓練也少了一個數量級( 1/ 4~12),意味著PAWS 可能也適合於沒有太多標記的圖像領域(比如醫學分析)。