Modelele de clasificare a imaginilor pe care le-am abordat până acum au luat o imagine și au produs un rezultat categoric, cum ar fi clasa 'număr' într-o problemă MNIST. Totuși, în multe cazuri nu dorim doar să știm că o imagine conține obiecte - vrem să putem determina locația lor exactă. Acesta este scopul detectării obiectelor.
Imagine de pe site-ul YOLO v2
Presupunând că dorim să găsim o pisică într-o imagine, o abordare foarte naivă pentru detectarea obiectelor ar fi următoarea:
- Împărțim imaginea în mai multe secțiuni.
- Aplicăm clasificarea imaginilor pe fiecare secțiune.
- Secțiunile care generează o activare suficient de mare pot fi considerate ca conținând obiectul în cauză.
Imagine din Notebook-ul de exerciții
Totuși, această abordare este departe de a fi ideală, deoarece permite algoritmului să localizeze foarte imprecis caseta de delimitare a obiectului. Pentru o localizare mai precisă, trebuie să aplicăm un fel de regresie pentru a prezice coordonatele casetelor de delimitare - și pentru aceasta, avem nevoie de seturi de date specifice.
Acest articol de blog oferă o introducere excelentă în detectarea formelor.
Este posibil să întâlniți următoarele seturi de date pentru această sarcină:
- PASCAL VOC - 20 clase
- COCO - Obiecte Comune în Context. 80 clase, casete de delimitare și măști de segmentare
În timp ce pentru clasificarea imaginilor este ușor să măsurăm cât de bine performează algoritmul, pentru detectarea obiectelor trebuie să măsurăm atât corectitudinea clasei, cât și precizia locației casetei de delimitare inferate. Pentru aceasta din urmă, folosim așa-numita Intersecția peste Uniune (IoU), care măsoară cât de bine se suprapun două casete (sau două zone arbitrare).
Figura 2 din acest articol excelent despre IoU
Ideea este simplă - împărțim aria de intersecție dintre două figuri la aria uniunii lor. Pentru două arii identice, IoU ar fi 1, în timp ce pentru arii complet separate va fi 0. În alte cazuri, va varia de la 0 la 1. De obicei, luăm în considerare doar acele casete de delimitare pentru care IoU depășește o anumită valoare.
Să presupunem că dorim să măsurăm cât de bine este recunoscută o anumită clasă de obiecte
- Considerăm curba Precizie-Recall care arată acuratețea în funcție de o valoare de prag de detectare (de la 0 la 1).
- În funcție de prag, vom detecta mai multe sau mai puține obiecte în imagine și vom obține valori diferite de precizie și recall.
- Curba va arăta astfel:
Imagine din NeuroWorkshop
Precizia Medie pentru o clasă dată
Vom lua în considerare doar acele detectări pentru care IoU depășește o anumită valoare. De exemplu, în setul de date PASCAL VOC, de obicei
Imagine din NeuroWorkshop
Principala metrică pentru detectarea obiectelor se numește Precizia Medie Generală, sau mAP. Este valoarea Preciziei Medii, mediată pe toate clasele de obiecte și, uneori, și pe
Există două clase largi de algoritmi de detectare a obiectelor:
- Rețele de Propunere a Regiunilor (R-CNN, Fast R-CNN, Faster R-CNN). Ideea principală este de a genera Regiuni de Interes (ROI) și de a aplica CNN pe acestea, căutând activarea maximă. Este oarecum similar cu abordarea naivă, cu excepția faptului că ROI-urile sunt generate într-un mod mai inteligent. Unul dintre principalele dezavantaje ale acestor metode este că sunt lente, deoarece necesită multe treceri ale clasificatorului CNN peste imagine.
- Metode One-pass (YOLO, SSD, RetinaNet). În aceste arhitecturi, proiectăm rețeaua pentru a prezice atât clasele, cât și ROI-urile într-o singură trecere.
R-CNN folosește Selective Search pentru a genera o structură ierarhică de regiuni ROI, care sunt apoi trecute prin extractoare de caracteristici CNN și clasificatoare SVM pentru a determina clasa obiectului, și regresie liniară pentru a determina coordonatele casetei de delimitare. Lucrare oficială
Imagine de van de Sande et al. ICCV’11
Imagini din acest blog
Această abordare este similară cu R-CNN, dar regiunile sunt definite după ce straturile de convoluție au fost aplicate.
Imagine din Lucrarea Oficială, arXiv, 2015
Ideea principală a acestei abordări este de a folosi o rețea neuronală pentru a prezice ROI-urile - așa-numita Rețea de Propunere a Regiunilor. Lucrare, 2016
Imagine din lucrarea oficială
Acest algoritm este chiar mai rapid decât Faster R-CNN. Ideea principală este următoarea:
- Extragem caracteristici folosind ResNet-101.
- Caracteristicile sunt procesate de Position-Sensitive Score Map. Fiecare obiect din
$C$ clase este împărțit în regiuni$k\times k$ , și antrenăm pentru a prezice părți ale obiectelor. - Pentru fiecare parte din regiunile
$k\times k$ , toate rețelele votează pentru clasele de obiecte, iar clasa de obiect cu votul maxim este selectată.
Imagine din lucrarea oficială
YOLO este un algoritm în timp real, cu o singură trecere. Ideea principală este următoarea:
- Imaginea este împărțită în regiuni
$S\times S$ . - Pentru fiecare regiune, CNN prezice
$n$ obiecte posibile, coordonatele casetei de delimitare și încrederea=probabilitatea * IoU.
Imagine din lucrarea oficială
- RetinaNet: lucrare oficială
- SSD (Single Shot Detector): lucrare oficială
Continuă învățarea în următorul notebook:
În această lecție ai explorat rapid toate modurile diferite prin care detectarea obiectelor poate fi realizată!
Citește aceste articole și notebook-uri despre YOLO și încearcă-le singur:
- Articol de blog bun despre YOLO
- Site oficial
- Yolo: Implementare Keras, notebook pas cu pas
- Yolo v2: Implementare Keras, notebook pas cu pas
- Detectarea Obiectelor de Nikhil Sardana
- O comparație bună a algoritmilor de detectare a obiectelor
- Revizuirea algoritmilor de învățare profundă pentru detectarea obiectelor
- Introducere pas cu pas în algoritmii de bază pentru detectarea obiectelor
- Implementarea Faster R-CNN în Python pentru detectarea obiectelor











