研究人員利用GPU在4K/8K視頻中進行物體檢測
卡內基梅隆大學的研究人員開發出一種新系統,該系統使用GPU快速準確地檢測4K和8K視頻中的物體。研究人員表示,雖然大量數據源以高分辨率記錄,但目前最先進的物體檢測模型,如YOLO,Faster RCNN,SSD等,只能處理具有相對較低分辨率的視頻,約為608 x 608像素。
目前大多數模型使用這些圖像有三個原因:它們足以完成任務;處理低分辨率圖像更具時間效率;許多用於訓練模型的公開數據集由低分辨率圖像組成。當然,低分辨率的問題在於沒有獲得很多細節。隨著4K甚至8K相機的數量不斷增加,需要一種新的模型來分析它們。
卡內基梅隆大學的研究人員出的這種新系統,將物體檢測的任務分為兩個階段,兩個階段都涉及通過將原始圖像與規則網格重疊來細分原始圖像,然後將模型YOLO v2應用於快速對象檢測。開發者創造了許多小型矩形作物,可以通過YOLO v2在幾個服務器工作者上以並行方式處理。第一階段將圖像縮小為較低分辨率並執行快速物體檢測以獲得粗糙的邊界框。第二階段使用這些邊界框作為註意圖來決定在高分辨率下檢查圖像的位置。因此當圖像的某些區域不包含任何感興趣的對象時,開發者可以節省處理它們的資源。
研究人員在代碼中實現了他們的模型,該代碼將工作分佈在GPU上,在設法保持高精度的同時,在4K視頻和8K視頻上分別達到3-6fps和2fps的性能,與將圖像縮小到低分辨率的YOLO v2方法相比,該方法將平均精度得分從33.6 AP50提高到74.3 AP50。與在高分辨率下處理原始圖像的每個部分相比,這種方法將處理高分辨率圖像所需的時間縮短了大約20%。這實際意味著近乎實時的4K視頻處理是可行的。