Bildklassifiseringsmodellene vi har jobbet med så langt tar et bilde og gir et kategorisk resultat, som klassen 'nummer' i et MNIST-problem. Men i mange tilfeller ønsker vi ikke bare å vite at et bilde viser objekter – vi vil også kunne bestemme deres nøyaktige plassering. Dette er nettopp poenget med objektgjenkjenning.
Bilde fra YOLO v2 nettside
Anta at vi ønsket å finne en katt på et bilde. En veldig naiv tilnærming til objektgjenkjenning ville være følgende:
- Del opp bildet i et antall fliser.
- Kjør bildklassifisering på hver flis.
- De flisene som gir tilstrekkelig høy aktivering kan anses å inneholde det aktuelle objektet.
Bilde fra Øvingsnotatbok
Denne tilnærmingen er imidlertid langt fra ideell, fordi den bare lar algoritmen lokalisere objektets avgrensningsboks veldig unøyaktig. For mer presis lokalisering må vi kjøre en form for regresjon for å forutsi koordinatene til avgrensningsboksene – og for det trenger vi spesifikke datasett.
Dette blogginnlegget gir en flott og enkel introduksjon til å oppdage former.
Du kan komme over følgende datasett for denne oppgaven:
- PASCAL VOC – 20 klasser
- COCO – Common Objects in Context. 80 klasser, avgrensningsbokser og segmenteringsmasker
Mens det er enkelt å måle hvor godt algoritmen presterer for bildklassifisering, må vi for objektgjenkjenning måle både korrektheten av klassen og presisjonen til den utledede plasseringen av avgrensningsboksen. For sistnevnte bruker vi den såkalte Intersection over Union (IoU), som måler hvor godt to bokser (eller to vilkårlige områder) overlapper.
Figur 2 fra dette utmerkede blogginnlegget om IoU
Ideen er enkel – vi deler området for overlapp mellom to figurer med området for deres union. For to identiske områder vil IoU være 1, mens for helt adskilte områder vil det være 0. Ellers vil det variere fra 0 til 1. Vi vurderer vanligvis bare de avgrensningsboksene der IoU er over en viss verdi.
Anta at vi ønsker å måle hvor godt en gitt klasse av objekter
- Vurder presisjon-recall-kurven som viser nøyaktigheten avhengig av en deteksjonsterskelverdi (fra 0 til 1).
- Avhengig av terskelen vil vi få flere eller færre objekter oppdaget i bildet, og ulike verdier for presisjon og recall.
- Kurven vil se slik ut:
Bilde fra NeuroWorkshop
Gjennomsnittlig presisjon for en gitt klasse
Vi vurderer kun de deteksjonene der IoU er over en viss verdi. For eksempel, i PASCAL VOC-datasettet antas vanligvis
Bilde fra NeuroWorkshop
Hovedmetrikken for objektgjenkjenning kalles Gjennomsnittlig presisjon, eller mAP. Det er verdien av gjennomsnittlig presisjon, gjennomsnittlig over alle objektklasser, og noen ganger også over
Det finnes to brede klasser av algoritmer for objektgjenkjenning:
- Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN). Hovedideen er å generere Regions of Interests (ROI) og kjøre CNN over dem, på jakt etter maksimal aktivering. Det ligner litt på den naive tilnærmingen, med unntak av at ROI-er genereres på en mer intelligent måte. En av de største ulempene med slike metoder er at de er trege, fordi vi trenger mange passeringer av CNN-klassifiseringen over bildet.
- One-pass (YOLO, SSD, RetinaNet)-metoder. I disse arkitekturene designer vi nettverket til å forutsi både klasser og ROI-er i én passering.
R-CNN bruker Selective Search for å generere en hierarkisk struktur av ROI-regioner, som deretter sendes gjennom CNN-funksjonsekstraktorer og SVM-klassifisatorer for å bestemme objektklassen, og lineær regresjon for å bestemme avgrensningsboks-koordinater. Offisiell artikkel
Bilde fra van de Sande et al. ICCV’11
Bilder fra denne bloggen
Denne tilnærmingen ligner på R-CNN, men regioner defineres etter at konvolusjonslagene er blitt brukt.
Bilde fra den offisielle artikkelen, arXiv, 2015
Hovedideen med denne tilnærmingen er å bruke et nevralt nettverk til å forutsi ROI-er – såkalte Region Proposal Network. Artikkel, 2016
Bilde fra den offisielle artikkelen
Denne algoritmen er enda raskere enn Faster R-CNN. Hovedideen er følgende:
- Vi henter ut funksjoner ved hjelp av ResNet-101.
- Funksjonene behandles av Position-Sensitive Score Map. Hvert objekt fra
$C$ klasser deles inn i$k\times k$ regioner, og vi trener på å forutsi deler av objekter. - For hver del fra
$k\times k$ regioner stemmer alle nettverkene på objektklasser, og objektklassen med flest stemmer blir valgt.
Bilde fra offisiell artikkel
YOLO er en sanntids én-pass-algoritme. Hovedideen er følgende:
- Bildet deles inn i
$S\times S$ regioner. - For hver region forutsier CNN
$n$ mulige objekter, avgrensningsboks-koordinater og confidence=sannsynlighet * IoU.
Bilde fra offisiell artikkel
- RetinaNet: offisiell artikkel
- SSD (Single Shot Detector): offisiell artikkel
Fortsett læringen i følgende notatbok:
I denne leksjonen tok du en rask gjennomgang av alle de ulike måtene objektgjenkjenning kan utføres på!
Les gjennom disse artiklene og notatbøkene om YOLO og prøv dem selv:
- Godt blogginnlegg som beskriver YOLO
- Offisiell nettside
- Yolo: Keras-implementasjon, steg-for-steg-notatbok
- Yolo v2: Keras-implementasjon, steg-for-steg-notatbok
- Objektgjenkjenning av Nikhil Sardana
- En god sammenligning av algoritmer for objektgjenkjenning
- Gjennomgang av dyp læringsalgoritmer for objektgjenkjenning
- En steg-for-steg introduksjon til grunnleggende algoritmer for objektgjenkjenning
- Implementering av Faster R-CNN i Python for objektgjenkjenning











