Modeli za klasifikacijo slik, s katerimi smo se doslej ukvarjali, so vzeli sliko in podali kategorialni rezultat, na primer razred 'številka' v problemu MNIST. Vendar pa v mnogih primerih ne želimo le vedeti, da slika prikazuje objekte – želimo določiti njihovo natančno lokacijo. To je pravzaprav bistvo zaznavanja objektov.
Slika s spletne strani YOLO v2
Če bi želeli na sliki najti mačko, bi bil zelo naiven pristop k zaznavanju objektov naslednji:
- Razdelimo sliko na več ploščic.
- Na vsaki ploščici izvedemo klasifikacijo slik.
- Tiste ploščice, ki imajo dovolj visoko aktivacijo, lahko štejemo, da vsebujejo iskani objekt.
Slika iz zvezka z vajami
Vendar pa ta pristop ni idealen, saj algoritmu omogoča le zelo nenatančno določanje okvirja objekta. Za bolj natančno lokacijo moramo izvesti nekakšno regresijo, da napovemo koordinate okvirjev – za to pa potrebujemo specifične podatkovne nabore.
Ta blog objava ponuja odličen uvod v zaznavanje oblik.
Pri tej nalogi lahko naletite na naslednje podatkovne nabore:
- PASCAL VOC – 20 razredov
- COCO – Pogosti objekti v kontekstu. 80 razredov, okvirji in maske za segmentacijo
Medtem ko je za klasifikacijo slik enostavno meriti, kako dobro deluje algoritem, moramo pri zaznavanju objektov meriti tako pravilnost razreda kot tudi natančnost določene lokacije okvirja. Za slednje uporabljamo tako imenovani Presek nad unijo (IoU), ki meri, kako dobro se dve škatli (ali dve poljubni območji) prekrivata.
Slika 2 iz te odlične blog objave o IoU
Ideja je preprosta – površino preseka med dvema figurama delimo s površino njune unije. Za dve identični območji bi bil IoU enak 1, medtem ko bi bil za popolnoma nepovezana območja enak 0. Sicer pa se vrednost giblje med 0 in 1. Običajno upoštevamo le tiste okvirje, za katere je IoU nad določeno vrednostjo.
Recimo, da želimo izmeriti, kako dobro je prepoznan določen razred objektov
- Krivulja natančnost-pokritost prikazuje natančnost glede na vrednost praga zaznavanja (od 0 do 1).
- Glede na prag bomo zaznali več ali manj objektov na sliki ter dobili različne vrednosti natančnosti in pokritosti.
- Krivulja bo videti takole:
Slika iz NeuroWorkshop
Povprečna natančnost za določen razred
Upoštevali bomo le tista zaznavanja, za katera je IoU nad določeno vrednostjo. Na primer, v podatkovnem naboru PASCAL VOC je običajno
Slika iz NeuroWorkshop
Glavno merilo za zaznavanje objektov se imenuje Povprečna povprečna natančnost ali mAP. To je vrednost povprečne natančnosti, povprečena čez vse razrede objektov, včasih pa tudi čez
Obstajata dve glavni skupini algoritmov za zaznavanje objektov:
- Mreže za predlaganje regij (R-CNN, Fast R-CNN, Faster R-CNN). Glavna ideja je generiranje regij interesa (ROI) in izvajanje CNN nad njimi, da poiščemo največjo aktivacijo. To je nekoliko podobno naivnemu pristopu, z izjemo, da se ROI generirajo na bolj pameten način. Ena glavnih pomanjkljivosti takšnih metod je, da so počasne, saj potrebujemo veliko prehodov CNN klasifikatorja čez sliko.
- Enoprehodne (YOLO, SSD, RetinaNet) metode. Pri teh arhitekturah zasnujemo mrežo tako, da v enem prehodu napove tako razrede kot ROI.
R-CNN uporablja Selektivno iskanje za generiranje hierarhične strukture regij ROI, ki se nato prenesejo skozi CNN ekstraktorje značilnosti in SVM-klasifikatorje za določanje razreda objekta ter linearno regresijo za določanje koordinat okvirja. Uradni članek
Slika iz van de Sande et al. ICCV’11
Slike iz tega bloga
Ta pristop je podoben R-CNN, vendar se regije določijo po tem, ko so bile uporabljene konvolucijske plasti.
Slika iz uradnega članka, arXiv, 2015
Glavna ideja tega pristopa je uporaba nevronske mreže za napovedovanje ROI – tako imenovane Mreže za predlaganje regij. Članek, 2016
Slika iz uradnega članka
Ta algoritem je še hitrejši od Faster R-CNN. Glavna ideja je naslednja:
- Značilnosti pridobimo z uporabo ResNet-101.
- Značilnosti obdelamo z Zemljevidom občutljivih na položaj. Vsak objekt iz
$C$ razredov je razdeljen na$k\times k$ regij, in treniramo za napovedovanje delov objektov. - Za vsak del iz
$k\times k$ regij vse mreže glasujejo za razrede objektov, in izbran je razred objekta z največ glasovi.
Slika iz uradnega članka
YOLO je algoritem za zaznavanje v realnem času z enim prehodom. Glavna ideja je naslednja:
- Slika je razdeljena na
$S\times S$ regij. - Za vsako regijo CNN napove
$n$ možnih objektov, koordinate okvirja in zaupanje=verjetnost * IoU.
Slika iz uradnega članka
- RetinaNet: uradni članek
- SSD (Single Shot Detector): uradni članek
Nadaljujte z učenjem v naslednjem zvezku:
V tej lekciji ste si ogledali različne načine, kako lahko izvedemo zaznavanje objektov!
Preberite te članke in zvezke o YOLO ter jih preizkusite sami:
- Dober blog o YOLO
- Uradna stran
- Yolo: Keras implementacija, zvezek korak za korakom
- Yolo v2: Keras implementacija, zvezek korak za korakom
- Zaznavanje objektov avtorja Nikhila Sardane
- Dobra primerjava algoritmov za zaznavanje objektov
- Pregled algoritmov globokega učenja za zaznavanje objektov
- Uvod v osnovne algoritme za zaznavanje objektov korak za korakom
- Implementacija Faster R-CNN v Pythonu za zaznavanje objektov











