Facebook推進計算機視覺革命:無標記數據也能找到數據集
機器學習基本上能夠完成各項任務,只要你能提供充足的數據對其進行培訓。但要做到這點,往往是很困難的。研究人員一直在尋找一種方法,為人工智能添加一點“常識”,這樣你就不必在它明白“什麼是貓”之前給它看500 張貓的照片。
Facebook的最新研究在減少數據瓶頸方面邁出了一大步。該公司強大的人工智能研究部門多年來一直在研究如何推進和擴展先進的計算機視覺算法,取得了穩定的進展,並與研究界的其他人士分享。Facebook特別追求的一個有趣的發展是所謂的“半監督式學習”(semi-supervised learning)。
一般來說,當你想訓練人工智能時,你會想到像前面提到的500張貓的圖片–已經被選擇和標記的圖片(這可能意味著勾勒出貓的輪廓,在貓的周圍放一個盒子,或者只是說那裡有一隻貓),這樣機器學習系統就可以把一個算法放在一起,使貓的識別過程自動化。當然,如果你想做狗或馬,你需要500張狗的照片,500張馬的照片,等等–它的規模是線性的,這是一個你永遠不想在技術領域看到的詞。
半監督式學習是“無監督學習”(unsupervised learning)的相對應,也就是在沒有任何標記數據的情況下找出數據集的重要部分。它並不是隨心所欲,還是有結構的;例如,想像一下,你給系統一千個句子來研究,然後再給它看10個缺少幾個詞的句子。該系統可能會根據它在前一千個句子中看到的內容,做一個體面的工作來填補這些空白。
但是對於圖片和視頻來說,這就不那麼容易了–它們並不那麼直接或可預測。但Facebook 的研究人員已經表明,雖然這可能不容易,但它是可能的,而且事實上非常有效。DINO 系統(代表沒有標籤的知識靜止DIstillation of knowledge with NO labels)能夠學習在沒有任何標籤數據的情況下,在人、動物和物體的視頻中很好地找到感興趣的對象。
它通過將視頻視為不是按順序逐一分析的圖像序列,而是一個複雜的、相互關聯的集合,就像”一連串的詞”和”一個句子”之間的區別。通過關注視頻的中間和結尾以及開頭,代理可以獲得一種感覺,比如”具有這種一般形狀的物體從左到右”。這些信息可以反饋到其他知識中,比如當右邊的物體與第一個物體重疊時,系統知道它們不是同一種東西,只是在這些幀中接觸。而這些知識反過來又可以應用於其他情況。換句話說,它發展了一種基本的視覺意義感,而且只需對新物體進行極少的訓練就能做到。
與傳統的訓練系統相比,它的表現很好–而且更有親和力和可解釋性。例如,雖然一個經過500 張狗圖片和500 張貓圖片訓練的人工智能可以識別這兩張圖片,但它不會真正知道它們在任何方面都是相似的。但是DINO–儘管它無法具體說明–知道它們在視覺上是相似的,無論如何比它們和汽車更相似,而且元數據和背景在它的記憶中是可見的。在它的那種數字認知空間中,狗和貓比狗和山更”接近”。