Google更新最大的帶註釋圖像數據集添加本地化敘述
近日,Google AI 宣布發布Open Images V6,和V5 版本相比,它極大地擴展了Open Images 數據集的註釋,增加了大量新的視覺關係(例如,“狗抓飛盤”)、人類動作註釋(例如,“女人跳躍”)和水平圖像標籤(例如,“paisley”)。
值得注意的是,該版本還添加了本地化敘述,這是一種全新的多模態註釋形式,由同步的語音、文本和鼠標跟踪所描述的對象組成。在OpenImagesV6 中,這些本地化的敘述可用於500k 圖像。此外,為了便於與之前的工作進行比較,Google 還為COCO 數據集的全部123k 圖像發布了本地化的敘述註釋。
Open Images V6網址:https://g.co/dataset/openimages
COCO數據集網址:http://cocodataset.org/
Open Images V5中的註釋模式:水平圖像標籤、邊界框、實例分段和視覺關係。圖片來源:1969年D.Miller的Camaro RS/SS、anita kluska的the house、Ari Helminen的Cat Cafe Shinjuku calico、Andrea Sartorati的Radiofiera-Villa Cor DELL ina Lombardi、Montecchio Maggiore(VI)-agosto 2010。
從很多方面來講,Open Images 是最大的帶註釋圖像數據集,用來訓練用於計算機視覺任務的最新深度卷積神經網絡。
視頻網址:https://youtu.be/mZqHVUstmIQ
本地化敘述的例子。圖片來源:Kasia 的 Spring is here
本地化敘述
本地化敘述背後的動機之一是研究、利用視覺和語言之間的聯繫,通常是通過圖像字幕加上人的文本描述完成。然而,圖像字幕的局限性之一是缺乏視覺基礎,即我們不知道文本描述的是圖像中的哪一塊。為了減輕這一問題,以前的一些數據集對文本描述中出現的名詞畫了一個後驗框。相反,在本地化的敘述中,文本描述的每個詞都是有對應位置的。
圖像內容和字幕之間的不同層次的對應。從左到右:整個圖像的標題(COCO);矩形框的名詞(Flickr30k 實體);鼠標跟踪段的每個單詞(本地化敘述)。圖片來源:COCO,Flickr30k Entities,和Rama 的Sapa。
本地化的敘述是由註釋者生成的,他們提供圖像的口頭描述,同時將鼠標懸停在所描述的區域上。語音註釋是其方法的核心,它直接將描述與其所引用的圖像區域連接起來。為了使描述更易於訪問,註釋者將自動語音轉錄結果與手動轉錄結果對齊。這恢復了描述的時間戳,確保語音、文本和鼠標跟踪這三種模式正確且同步。
手動和自動轉錄的對齊,圖像是基於Freepik 的原創作品設計的。
在說話的同時進行指示是非常直觀的,為研究人們描述圖像創造了更多方法。例如,我們觀察到,在表示對象的空間範圍時有不同風格的線條——環繞、劃滿線條、下劃線等等——對這些風格的研究可以為新用戶界面的設計帶來有價值的見解。
鼠標跟踪與圖像下面的單詞對應的區域。圖片來源:Via Guglielmo Marconi,Elliott Brown 的Positano-Hotel Le Agavi-boat,vivek jena的air frame,以及弗吉尼亞州立公園的CL P1050512。
這些本地化的敘述所代表的額外數據量到底有多大?據了解,鼠標軌蹟的總長度約為6400 公里,如果不停地朗讀,所有的敘述將需要約1.5 年的時間讀完!
新的視覺關係、人類行為和水平圖像註釋
除了本地化的敘述之外,在OpenImagesV6中,Google將視覺關係註釋的類型增加了一個數量級(高達1. 4K),例如添加了“男人滑滑板”、“男人和女人牽著手”和“狗抓飛盤”等。
圖片來源:IMG 作者James Buck,DSC 作者Quentin Meulepas,dsc06464 作者sally9258。
自從計算機視覺誕生以來,圖像中的人就一直是其研究的核心領域之一,理解這些人在做什麼對許多應用來說至關重要。因此,Open Images V6 還包含了250 萬個人類執行獨立動作的註釋,比如跳躍、微笑或躺下。
圖片來源:Boo Ph 的DSCs1341(2),Johannes Gardner 的Richard Wagner Spile 2015。
最後,Google 還添加了2350 萬個新的人工驗證的水平圖像標籤,有接近20000 個類別,大小超過59.9M。
Open Images 挑戰賽
在去年5 月發布的第5 版Open Images V5 中包含9M 圖像,並有36M 的水平圖像標籤、15.8M 的邊界框、2.8M 的分段實例和391k 的視覺關係。
與數據集本身一樣,2019 年Google舉辦了Open Images 挑戰賽,比賽分為目標檢測、實例分割和視覺關係檢測三個賽道,對這三個方向技術的最新進展起到了積極的推動作用。
大賽介紹
- 目標檢測賽道
目標檢測賽道要求預測對象實例周圍的邊界框。
訓練集包含12.2M 的邊界框,跨越500 個類別,覆蓋170 萬張圖片。為了確保准確性和一致性,這些邊界框大部分是由專業註釋員手工繪製的。數據集圖像非常多樣化,通常包含多個對象的複雜場景——平均每張圖像有7 個對象。
示例圖片:Rhys A 的作品 Mark Paul Gosselaar 彈吉他
比賽網址:https://www.kaggle.com/c/open-images-2019-object-detection
- 實例分割賽道
實例分割賽道要求提供對象的分段掩碼。
訓練集包含300 個類別中2.1M 分段實例掩碼;驗證集包含額外的23k 掩碼。訓練集掩碼是由最先進的交互式分割過程產生的,在這個過程中,專業的人類註釋者迭代地校正分割神經網絡的輸出。為保證質量,驗證和測試集掩碼是手動註釋的。
訓練組註釋示例。左圖:Gary Stevens 1995年拍攝的無錫科技園;右圖:Ari Helminen拍攝的咖啡館的貓咪
比賽網址:https://www.kaggle.com/c/open-images-2019-instance-segmentation
- 視覺關係檢測賽道
視覺關係檢測賽道要求檢測對像對以及連接它們的關係。
訓練集包含329 個關係(三對三)和375k 訓練樣本。這些關係既包括人與物的關係(例如“女人彈吉他”、“男人拿麥克風”),也包括物與物的關係(例如“桌子上的啤酒”、“車裡的狗”),還包括物與物的屬性關係(例如“手提包是皮革做的”和“長凳是木製的”)。
彈吉他的人
比賽網址:https://www.kaggle.com/c/open-images-2019-visual-relationship
大賽獎金
挑戰賽的總獎金為75,000 美元,在三個賽道之間平均分配。其中:
- 第一名:$ 7,000
- 第二名:$ 6,000
- 第三名:$ 5,000
- 第四名:$ 4,000
- 第五名-:$ 3000
Open Images V6 是改進圖像分類、目標檢測、視覺關係檢測和實例分割的統一標註的一個重要的定性和定量步驟,它採用了一種新穎的方法將視覺和語言與局部敘述聯繫起來。Google 希望Open Images V6 將進一步促進場景理解的研究進展。
via:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
https://www.kaggle.com/c/open-images-2019-object-detection
https://storage.googleapis.com/openimages/web/challenge2019.html#instance_segmentation
https://www.kaggle.com/c/open-images-2019-visual-relationship