Objektigenkänning

De bildklassificeringsmodeller vi har arbetat med hittills tar en bild och producerar ett kategoriskt resultat, som klassen 'nummer' i ett MNIST-problem. Men i många fall vill vi inte bara veta att en bild föreställer objekt - vi vill kunna bestämma deras exakta position. Det är precis detta som är syftet med objektigenkänning.

Quiz före föreläsningen

Bild från YOLO v2 webbplats

En naiv metod för objektigenkänning

Om vi ville hitta en katt på en bild, skulle en mycket naiv metod för objektigenkänning vara följande:

Dela upp bilden i ett antal rutor.
Kör bildklassificering på varje ruta.
De rutor som resulterar i tillräckligt hög aktivering kan anses innehålla det aktuella objektet.

Bild från Övningsanteckningsbok

Denna metod är dock långt ifrån idealisk, eftersom den bara tillåter algoritmen att lokalisera objektets begränsningsruta mycket oprecist. För mer exakt lokalisering behöver vi köra någon form av regression för att förutsäga koordinaterna för begränsningsrutorna - och för det behöver vi specifika dataset.

Regression för objektigenkänning

Denna bloggpost ger en bra introduktion till att detektera former.

Dataset för objektigenkänning

Du kan stöta på följande dataset för denna uppgift:

PASCAL VOC - 20 klasser
COCO - Vanliga objekt i kontext. 80 klasser, begränsningsrutor och segmenteringsmasker

Mätvärden för objektigenkänning

Intersection over Union

Medan det är enkelt att mäta hur väl algoritmen presterar för bildklassificering, behöver vi för objektigenkänning mäta både korrektheten av klassen och precisionen av den förutsagda begränsningsrutans position. För det senare använder vi den så kallade Intersection over Union (IoU), som mäter hur väl två rutor (eller två godtyckliga områden) överlappar.

Figur 2 från denna utmärkta bloggpost om IoU

Idén är enkel - vi delar området av överlappningen mellan två figurer med området av deras union. För två identiska områden skulle IoU vara 1, medan för helt separata områden skulle det vara 0. Annars varierar det från 0 till 1. Vi betraktar vanligtvis bara de begränsningsrutor där IoU är över ett visst värde.

Genomsnittlig precision

Anta att vi vill mäta hur väl en viss klass av objekt $C$ känns igen. För att mäta detta använder vi Genomsnittlig precision (Average Precision, AP), som beräknas enligt följande:

Betrakta Precision-Recall-kurvan som visar noggrannheten beroende på ett detektionströskelvärde (från 0 till 1).
Beroende på tröskeln kommer vi att få fler eller färre objekt detekterade i bilden, och olika värden för precision och recall.
Kurvan kommer att se ut så här:

Bild från NeuroWorkshop

Den genomsnittliga precisionen för en given klass $C$ är arean under denna kurva. Mer exakt delas Recall-axeln vanligtvis in i 10 delar, och Precision medelvärdesbildas över alla dessa punkter:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP och IoU

Vi betraktar endast de detektioner där IoU är över ett visst värde. Till exempel antas vanligtvis $\mbox{IoU Threshold} = 0.5$ i PASCAL VOC-datasetet, medan AP mäts för olika värden av $\mbox{IoU Threshold}$ i COCO.

Bild från NeuroWorkshop

Medelvärde av genomsnittlig precision - mAP

Huvudmätvärdet för objektigenkänning kallas Medelvärde av genomsnittlig precision, eller mAP. Det är värdet av genomsnittlig precision, medelvärdesbildat över alla objektklasser, och ibland även över $\mbox{IoU Threshold}$. Mer detaljerat beskrivs processen för att beräkna mAP i denna bloggpost), och även här med kodexempel.

Olika metoder för objektigenkänning

Det finns två breda klasser av algoritmer för objektigenkänning:

Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN). Huvudidén är att generera Regions of Interests (ROI) och köra CNN över dem, för att leta efter maximal aktivering. Det liknar den naiva metoden, med undantaget att ROI genereras på ett mer intelligent sätt. En av de stora nackdelarna med sådana metoder är att de är långsamma, eftersom vi behöver många passeringar av CNN-klassificeraren över bilden.
One-pass (YOLO, SSD, RetinaNet) metoder. I dessa arkitekturer designar vi nätverket för att förutsäga både klasser och ROI i ett enda pass.

R-CNN: Regionbaserad CNN

R-CNN använder Selective Search för att generera en hierarkisk struktur av ROI-regioner, som sedan passerar genom CNN-funktionsextraktorer och SVM-klassificerare för att bestämma objektklassen, och linjär regression för att bestämma begränsningsrutans koordinater. Officiell artikel

Bild från van de Sande et al. ICCV’11

Bilder från denna blogg

F-RCNN - Fast R-CNN

Denna metod liknar R-CNN, men regioner definieras efter att konvolutionslager har applicerats.

Bild från den officiella artikeln, arXiv, 2015

Faster R-CNN

Huvudidén med denna metod är att använda ett neuralt nätverk för att förutsäga ROI - så kallat Region Proposal Network. Artikel, 2016

Bild från den officiella artikeln

R-FCN: Regionbaserat fullt konvolutionellt nätverk

Denna algoritm är ännu snabbare än Faster R-CNN. Huvudidén är följande:

Vi extraherar funktioner med hjälp av ResNet-101.
Funktionerna bearbetas av Position-Sensitive Score Map. Varje objekt från $C$ klasser delas upp i $k\times k$ regioner, och vi tränar för att förutsäga delar av objekt.
För varje del från $k\times k$ regioner röstar alla nätverk för objektklasser, och den objektklass med flest röster väljs.

Bild från officiell artikel

YOLO - You Only Look Once

YOLO är en realtidsalgoritm med ett enda pass. Huvudidén är följande:

Bilden delas upp i $S\times S$ regioner.
För varje region förutsäger CNN $n$ möjliga objekt, begränsningsrutans koordinater och confidence=sannolikhet * IoU.

Bild från officiell artikel

Andra algoritmer

RetinaNet: officiell artikel
- PyTorch-implementering i Torchvision
- Keras-implementering
- Objektigenkänning med RetinaNet i Keras-exempel
SSD (Single Shot Detector): officiell artikel

✍️ Övningar: Objektigenkänning

Fortsätt ditt lärande i följande anteckningsbok:

ObjectDetection.ipynb

Slutsats

I denna lektion tog du en snabb genomgång av alla olika sätt som objektigenkänning kan utföras!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Objektigenkänning

Quiz före föreläsningen

En naiv metod för objektigenkänning

Regression för objektigenkänning

Dataset för objektigenkänning