Facebook推出新AI工具可直接識別圖片中的物體
要讓計算機學會識別一張照片中的圖像,通常來說,需要先讓它看上千張已經標註好數據的圖片。為了能簡化計算機識別圖像的過程,來自Facebook人工智能研究實驗室(FAIR)的六名成員利用Transformer神經網絡架構創建了端到端的圖像檢測AI。
DETR可以直接(並行)預測最終的檢測結果
研究員將這套工具命名為DETR(Detection Transformer),並表示這套工具簡化了識別圖片對象需要的組件。
FAIR 在官方博客中稱,DETR是第一個成功將Transformer架構集成為圖像對象檢測核心的工具。Transformer架構可以像近年來對自然語言進行處理一樣,徹底改變計算機視覺,或者縮小自然語言處理與計算機視覺之間的差距。
“通過將通用的CNN與Transformer架構相結合,DETR可以直接(並行)預測最終的檢測結果,與許多其他現代檢測工具不同,新模型在概念上很簡單,不需要專門的數據庫。”研究員在論文中稱。
Transformer架構由谷歌研究人員於2017年創建,Transformer架構最初旨在改進機器翻譯的方法,但目前已發展成為機器學習的基石,可用於訓練一些最流行的經過預先培訓的語言模型,例如Google的BERT ,Facebook的RoBERTa等。Transformer架構使用注意力函數代替遞歸神經網絡來預測序列中的下一步。應用於物體檢測時,Transformer可以減少建立模型的步驟,例如創建空間錨點和自定義圖層等步驟。
研究人員在論文中稱,DETR取得的結果可與Faster R-CNN媲美。Faster R-CNN是由微軟研究院創建的對象檢測模型,自2015年推出以來已獲得近10000次引用。
儘管效果不錯,但研究人員在論文中也指出了這個模型的主要問題之一:DETR在大物體的識別上比小物體上更準確。研究人員表示:“目前的模型需要幾年改進才能應對類似的問題,我們希望未來的工作能夠成功解決。”
值得一提的是,DETR是Facebook最新推出的AI計劃,這個計劃旨在找到一種語言模型來解決計算機視覺帶來的挑戰。在此之前,針對自家平台上氾濫的謠言和不實消息,Facebook引入了惡意模因數據集挑戰。Facebook認為,惡意圖文對於機器學習程序而言是一個有趣的挑戰,機器學習在短時間內還找不到完美的解決方法。Facebook希望開發者能創建出模型識別圖像和隨附文本中違反Facebook政策的內容。