Skip to content

Latest commit

 

History

History
179 lines (101 loc) · 10.1 KB

File metadata and controls

179 lines (101 loc) · 10.1 KB

Zaznavanje objektov

Modeli za klasifikacijo slik, s katerimi smo se doslej ukvarjali, so vzeli sliko in podali kategorialni rezultat, na primer razred 'številka' v problemu MNIST. Vendar pa v mnogih primerih ne želimo le vedeti, da slika prikazuje objekte – želimo določiti njihovo natančno lokacijo. To je pravzaprav bistvo zaznavanja objektov.

Zaznavanje objektov

Slika s spletne strani YOLO v2

Naiven pristop k zaznavanju objektov

Če bi želeli na sliki najti mačko, bi bil zelo naiven pristop k zaznavanju objektov naslednji:

  1. Razdelimo sliko na več ploščic.
  2. Na vsaki ploščici izvedemo klasifikacijo slik.
  3. Tiste ploščice, ki imajo dovolj visoko aktivacijo, lahko štejemo, da vsebujejo iskani objekt.

Naivno zaznavanje objektov

Slika iz zvezka z vajami

Vendar pa ta pristop ni idealen, saj algoritmu omogoča le zelo nenatančno določanje okvirja objekta. Za bolj natančno lokacijo moramo izvesti nekakšno regresijo, da napovemo koordinate okvirjev – za to pa potrebujemo specifične podatkovne nabore.

Regresija za zaznavanje objektov

Ta blog objava ponuja odličen uvod v zaznavanje oblik.

Podatkovni nabori za zaznavanje objektov

Pri tej nalogi lahko naletite na naslednje podatkovne nabore:

  • PASCAL VOC – 20 razredov
  • COCO – Pogosti objekti v kontekstu. 80 razredov, okvirji in maske za segmentacijo

COCO

Merila za zaznavanje objektov

Presek nad unijo

Medtem ko je za klasifikacijo slik enostavno meriti, kako dobro deluje algoritem, moramo pri zaznavanju objektov meriti tako pravilnost razreda kot tudi natančnost določene lokacije okvirja. Za slednje uporabljamo tako imenovani Presek nad unijo (IoU), ki meri, kako dobro se dve škatli (ali dve poljubni območji) prekrivata.

IoU

Slika 2 iz te odlične blog objave o IoU

Ideja je preprosta – površino preseka med dvema figurama delimo s površino njune unije. Za dve identični območji bi bil IoU enak 1, medtem ko bi bil za popolnoma nepovezana območja enak 0. Sicer pa se vrednost giblje med 0 in 1. Običajno upoštevamo le tiste okvirje, za katere je IoU nad določeno vrednostjo.

Povprečna natančnost

Recimo, da želimo izmeriti, kako dobro je prepoznan določen razred objektov $C$. Za merjenje tega uporabljamo merilo Povprečna natančnost, ki se izračuna na naslednji način:

  1. Krivulja natančnost-pokritost prikazuje natančnost glede na vrednost praga zaznavanja (od 0 do 1).
  2. Glede na prag bomo zaznali več ali manj objektov na sliki ter dobili različne vrednosti natančnosti in pokritosti.
  3. Krivulja bo videti takole:

Slika iz NeuroWorkshop

Povprečna natančnost za določen razred $C$ je površina pod to krivuljo. Natančneje, os pokritosti je običajno razdeljena na 10 delov, natančnost pa se povpreči čez vse te točke:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP in IoU

Upoštevali bomo le tista zaznavanja, za katera je IoU nad določeno vrednostjo. Na primer, v podatkovnem naboru PASCAL VOC je običajno $\mbox{IoU Threshold} = 0.5$, medtem ko se v COCO AP meri za različne vrednosti $\mbox{IoU Threshold}$.

Slika iz NeuroWorkshop

Povprečna povprečna natančnost – mAP

Glavno merilo za zaznavanje objektov se imenuje Povprečna povprečna natančnost ali mAP. To je vrednost povprečne natančnosti, povprečena čez vse razrede objektov, včasih pa tudi čez $\mbox{IoU Threshold}$. Podrobnejši opis postopka izračuna mAP najdete v tej blog objavi), pa tudi tukaj s primeri kode.

Različni pristopi k zaznavanju objektov

Obstajata dve glavni skupini algoritmov za zaznavanje objektov:

  • Mreže za predlaganje regij (R-CNN, Fast R-CNN, Faster R-CNN). Glavna ideja je generiranje regij interesa (ROI) in izvajanje CNN nad njimi, da poiščemo največjo aktivacijo. To je nekoliko podobno naivnemu pristopu, z izjemo, da se ROI generirajo na bolj pameten način. Ena glavnih pomanjkljivosti takšnih metod je, da so počasne, saj potrebujemo veliko prehodov CNN klasifikatorja čez sliko.
  • Enoprehodne (YOLO, SSD, RetinaNet) metode. Pri teh arhitekturah zasnujemo mrežo tako, da v enem prehodu napove tako razrede kot ROI.

R-CNN: CNN, ki temelji na regijah

R-CNN uporablja Selektivno iskanje za generiranje hierarhične strukture regij ROI, ki se nato prenesejo skozi CNN ekstraktorje značilnosti in SVM-klasifikatorje za določanje razreda objekta ter linearno regresijo za določanje koordinat okvirja. Uradni članek

RCNN

Slika iz van de Sande et al. ICCV’11

RCNN-1

Slike iz tega bloga

F-RCNN – Hitri R-CNN

Ta pristop je podoben R-CNN, vendar se regije določijo po tem, ko so bile uporabljene konvolucijske plasti.

FRCNN

Slika iz uradnega članka, arXiv, 2015

Faster R-CNN

Glavna ideja tega pristopa je uporaba nevronske mreže za napovedovanje ROI – tako imenovane Mreže za predlaganje regij. Članek, 2016

FasterRCNN

Slika iz uradnega članka

R-FCN: Popolnoma konvolucijska mreža, ki temelji na regijah

Ta algoritem je še hitrejši od Faster R-CNN. Glavna ideja je naslednja:

  1. Značilnosti pridobimo z uporabo ResNet-101.
  2. Značilnosti obdelamo z Zemljevidom občutljivih na položaj. Vsak objekt iz $C$ razredov je razdeljen na $k\times k$ regij, in treniramo za napovedovanje delov objektov.
  3. Za vsak del iz $k\times k$ regij vse mreže glasujejo za razrede objektov, in izbran je razred objekta z največ glasovi.

r-fcn slika

Slika iz uradnega članka

YOLO – Pogledaš samo enkrat

YOLO je algoritem za zaznavanje v realnem času z enim prehodom. Glavna ideja je naslednja:

  • Slika je razdeljena na $S\times S$ regij.
  • Za vsako regijo CNN napove $n$ možnih objektov, koordinate okvirja in zaupanje=verjetnost * IoU.

YOLO

Slika iz uradnega članka

Drugi algoritmi

✍️ Vaje: Zaznavanje objektov

Nadaljujte z učenjem v naslednjem zvezku:

ObjectDetection.ipynb

Zaključek

V tej lekciji ste si ogledali različne načine, kako lahko izvedemo zaznavanje objektov!

🚀 Izziv

Preberite te članke in zvezke o YOLO ter jih preizkusite sami:

Pregled in samostojno učenje