我們之前處理的影像分類模型,通常是輸入一張圖片並產生一個分類結果,例如在 MNIST 問題中得到「數字」這個類別。然而,在許多情況下,我們不僅僅想知道圖片中有物件存在,我們還希望能夠確定它們的精確位置。這正是物件偵測的目的。
圖片來源:YOLO v2 網站
假設我們想在一張圖片中找到一隻貓,一個非常簡單的物件偵測方法可能如下:
- 將圖片分割成多個小區塊。
- 對每個區塊進行影像分類。
- 對於分類結果有足夠高信心的區塊,可以認為包含目標物件。
圖片來源:練習筆記本
然而,這種方法並不理想,因為它只能非常粗略地定位物件的邊界框。為了更精確地定位,我們需要進行某種回歸來預測邊界框的座標,而這需要特定的數據集。
這篇部落格文章提供了一個非常好的入門指南,介紹如何偵測形狀。
在進行物件偵測時,你可能會遇到以下數據集:
- PASCAL VOC - 包含 20 個類別
- COCO - 常見物件的上下文。包含 80 個類別、邊界框和分割遮罩
在影像分類中,衡量算法表現相對簡單;但在物件偵測中,我們需要同時衡量類別的正確性以及推測邊界框位置的精確性。對於後者,我們使用所謂的交集比聯集 (IoU),它衡量兩個框(或任意兩個區域)的重疊程度。
圖片來源:這篇優秀的 IoU 部落格文章
概念很簡單——將兩個圖形的交集面積除以它們的聯集面積。對於完全相同的區域,IoU 值為 1;而對於完全不相交的區域,IoU 值為 0。其他情況下,IoU 值介於 0 到 1 之間。我們通常只考慮 IoU 超過某個值的邊界框。
假設我們想衡量某個類別
- 考慮精度-召回曲線,顯示檢測閾值(從 0 到 1)對準確性的影響。
- 根據閾值,我們會在圖片中檢測到更多或更少的物件,並得到不同的精度和召回值。
- 曲線看起來如下:
圖片來源:NeuroWorkshop
給定類別
我們只考慮那些 IoU 超過某個值的檢測。例如,在 PASCAL VOC 數據集中,通常假設
圖片來源:NeuroWorkshop
物件偵測的主要指標稱為平均平均精度 (Mean Average Precision, mAP)。它是所有物件類別的平均精度,有時也包括不同的
物件偵測算法主要分為兩大類:
- 區域提案網路 (Region Proposal Networks)(如 R-CNN、Fast R-CNN、Faster R-CNN)。主要思想是生成感興趣區域 (ROI),並對其進行 CNN 分析以尋找最大激活值。這與簡單方法有些相似,但 ROI 是以更聰明的方式生成的。這類方法的主要缺點是速度較慢,因為需要多次 CNN 分類器的運行。
- 一次通過 (One-pass) 方法(如 YOLO、SSD、RetinaNet)。這些架構設計成一次性預測類別和 ROI。
R-CNN 使用選擇性搜索生成 ROI 區域的層次結構,然後通過 CNN 特徵提取器和 SVM 分類器來確定物件類別,並通過線性回歸確定邊界框座標。官方論文
圖片來源:van de Sande et al. ICCV’11
圖片來源:這篇部落格
這種方法與 R-CNN 類似,但區域是在卷積層應用後定義的。
這種方法的主要思想是使用神經網路來預測 ROI,即所謂的區域提案網路 (Region Proposal Network)。論文,2016
圖片來源:官方論文
這種算法比 Faster R-CNN 更快。主要思想如下:
- 使用 ResNet-101 提取特徵。
- 特徵通過位置敏感分數圖 (Position-Sensitive Score Map) 處理。每個類別
$C$ 的物件被分成$k\times k$ 區域,我們訓練模型來預測物件的部分。 - 對於
$k\times k$ 區域中的每個部分,所有網路對物件類別進行投票,選擇投票最多的物件類別。
圖片來源:官方論文
YOLO 是一種即時的一次通過算法。主要思想如下:
- 將圖片分成
$S\times S$ 區域。 - 對每個區域,CNN 預測
$n$ 個可能的物件、邊界框座標以及信心值=概率 * IoU。
圖片來源:官方論文
- RetinaNet: 官方論文
- PyTorch 實現
- Keras 實現
- RetinaNet 物件偵測 在 Keras 範例中
- SSD (單次檢測器): 官方論文
繼續學習以下筆記本:
在這節課中,你快速瀏覽了各種物件偵測方法!
閱讀以下文章和筆記本,並嘗試使用 YOLO:
- 物件偵測 作者:Nikhil Sardana
- 物件偵測算法的良好比較
- 深度學習物件偵測算法回顧
- 物件偵測算法的逐步介紹
- Python 中 Faster R-CNN 的物件偵測實現











