Zaznavanje objektov

Modeli za klasifikacijo slik, s katerimi smo se doslej ukvarjali, so vzeli sliko in podali kategorialni rezultat, na primer razred 'številka' v problemu MNIST. Vendar pa v mnogih primerih ne želimo le vedeti, da slika prikazuje objekte – želimo določiti njihovo natančno lokacijo. To je pravzaprav bistvo zaznavanja objektov.

Predhodni kviz

Slika s spletne strani YOLO v2

Naiven pristop k zaznavanju objektov

Če bi želeli na sliki najti mačko, bi bil zelo naiven pristop k zaznavanju objektov naslednji:

Razdelimo sliko na več ploščic.
Na vsaki ploščici izvedemo klasifikacijo slik.
Tiste ploščice, ki imajo dovolj visoko aktivacijo, lahko štejemo, da vsebujejo iskani objekt.

Slika iz zvezka z vajami

Vendar pa ta pristop ni idealen, saj algoritmu omogoča le zelo nenatančno določanje okvirja objekta. Za bolj natančno lokacijo moramo izvesti nekakšno regresijo, da napovemo koordinate okvirjev – za to pa potrebujemo specifične podatkovne nabore.

Regresija za zaznavanje objektov

Ta blog objava ponuja odličen uvod v zaznavanje oblik.

Podatkovni nabori za zaznavanje objektov

Pri tej nalogi lahko naletite na naslednje podatkovne nabore:

PASCAL VOC – 20 razredov
COCO – Pogosti objekti v kontekstu. 80 razredov, okvirji in maske za segmentacijo

Merila za zaznavanje objektov

Presek nad unijo

Medtem ko je za klasifikacijo slik enostavno meriti, kako dobro deluje algoritem, moramo pri zaznavanju objektov meriti tako pravilnost razreda kot tudi natančnost določene lokacije okvirja. Za slednje uporabljamo tako imenovani Presek nad unijo (IoU), ki meri, kako dobro se dve škatli (ali dve poljubni območji) prekrivata.

Slika 2 iz te odlične blog objave o IoU

Ideja je preprosta – površino preseka med dvema figurama delimo s površino njune unije. Za dve identični območji bi bil IoU enak 1, medtem ko bi bil za popolnoma nepovezana območja enak 0. Sicer pa se vrednost giblje med 0 in 1. Običajno upoštevamo le tiste okvirje, za katere je IoU nad določeno vrednostjo.

Povprečna natančnost

Recimo, da želimo izmeriti, kako dobro je prepoznan določen razred objektov $C$. Za merjenje tega uporabljamo merilo Povprečna natančnost, ki se izračuna na naslednji način:

Krivulja natančnost-pokritost prikazuje natančnost glede na vrednost praga zaznavanja (od 0 do 1).
Glede na prag bomo zaznali več ali manj objektov na sliki ter dobili različne vrednosti natančnosti in pokritosti.
Krivulja bo videti takole:

Slika iz NeuroWorkshop

Povprečna natančnost za določen razred $C$ je površina pod to krivuljo. Natančneje, os pokritosti je običajno razdeljena na 10 delov, natančnost pa se povpreči čez vse te točke:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP in IoU

Upoštevali bomo le tista zaznavanja, za katera je IoU nad določeno vrednostjo. Na primer, v podatkovnem naboru PASCAL VOC je običajno $\mbox{IoU Threshold} = 0.5$, medtem ko se v COCO AP meri za različne vrednosti $\mbox{IoU Threshold}$.

Slika iz NeuroWorkshop

Povprečna povprečna natančnost – mAP

Glavno merilo za zaznavanje objektov se imenuje Povprečna povprečna natančnost ali mAP. To je vrednost povprečne natančnosti, povprečena čez vse razrede objektov, včasih pa tudi čez $\mbox{IoU Threshold}$. Podrobnejši opis postopka izračuna mAP najdete v tej blog objavi), pa tudi tukaj s primeri kode.

Različni pristopi k zaznavanju objektov

Obstajata dve glavni skupini algoritmov za zaznavanje objektov:

Mreže za predlaganje regij (R-CNN, Fast R-CNN, Faster R-CNN). Glavna ideja je generiranje regij interesa (ROI) in izvajanje CNN nad njimi, da poiščemo največjo aktivacijo. To je nekoliko podobno naivnemu pristopu, z izjemo, da se ROI generirajo na bolj pameten način. Ena glavnih pomanjkljivosti takšnih metod je, da so počasne, saj potrebujemo veliko prehodov CNN klasifikatorja čez sliko.
Enoprehodne (YOLO, SSD, RetinaNet) metode. Pri teh arhitekturah zasnujemo mrežo tako, da v enem prehodu napove tako razrede kot ROI.

R-CNN: CNN, ki temelji na regijah

R-CNN uporablja Selektivno iskanje za generiranje hierarhične strukture regij ROI, ki se nato prenesejo skozi CNN ekstraktorje značilnosti in SVM-klasifikatorje za določanje razreda objekta ter linearno regresijo za določanje koordinat okvirja. Uradni članek

Slika iz van de Sande et al. ICCV’11

Slike iz tega bloga

F-RCNN – Hitri R-CNN

Ta pristop je podoben R-CNN, vendar se regije določijo po tem, ko so bile uporabljene konvolucijske plasti.

Slika iz uradnega članka, arXiv, 2015

Faster R-CNN

Glavna ideja tega pristopa je uporaba nevronske mreže za napovedovanje ROI – tako imenovane Mreže za predlaganje regij. Članek, 2016

Slika iz uradnega članka

R-FCN: Popolnoma konvolucijska mreža, ki temelji na regijah

Ta algoritem je še hitrejši od Faster R-CNN. Glavna ideja je naslednja:

Značilnosti pridobimo z uporabo ResNet-101.
Značilnosti obdelamo z Zemljevidom občutljivih na položaj. Vsak objekt iz $C$ razredov je razdeljen na $k\times k$ regij, in treniramo za napovedovanje delov objektov.
Za vsak del iz $k\times k$ regij vse mreže glasujejo za razrede objektov, in izbran je razred objekta z največ glasovi.

Slika iz uradnega članka

YOLO – Pogledaš samo enkrat

YOLO je algoritem za zaznavanje v realnem času z enim prehodom. Glavna ideja je naslednja:

Slika je razdeljena na $S\times S$ regij.
Za vsako regijo CNN napove $n$ možnih objektov, koordinate okvirja in zaupanje=verjetnost * IoU.

Slika iz uradnega članka

Drugi algoritmi

RetinaNet: uradni članek
- PyTorch implementacija v Torchvision
- Keras implementacija
- Zaznavanje objektov z RetinaNet v Keras vzorcih
SSD (Single Shot Detector): uradni članek

✍️ Vaje: Zaznavanje objektov

Nadaljujte z učenjem v naslednjem zvezku:

ObjectDetection.ipynb

Zaključek

V tej lekciji ste si ogledali različne načine, kako lahko izvedemo zaznavanje objektov!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Zaznavanje objektov

Predhodni kviz

Naiven pristop k zaznavanju objektov

Regresija za zaznavanje objektov

Podatkovni nabori za zaznavanje objektov