Objektų atpažinimas

Vaizdų klasifikavimo modeliai, su kuriais dirbome iki šiol, paimdavo vaizdą ir pateikdavo kategorinį rezultatą, pavyzdžiui, klasę „skaičius“ MNIST problemos atveju. Tačiau daugeliu atvejų mums nepakanka žinoti, kad paveikslėlyje yra objektų – norime nustatyti jų tikslią vietą. Būtent tai ir yra objektų atpažinimo esmė.

Prieš paskaitą: testas

Vaizdas iš YOLO v2 svetainės

Naivus požiūris į objektų atpažinimą

Tarkime, norime rasti katę paveikslėlyje. Labai naivus požiūris į objektų atpažinimą būtų toks:

Suskaidyti paveikslėlį į daugybę plytelių.
Atlikti vaizdų klasifikavimą kiekvienoje plytelėje.
Tos plytelės, kurios duoda pakankamai aukštą aktyvaciją, gali būti laikomos turinčiomis ieškomą objektą.

Vaizdas iš užduočių sąsiuvinio

Tačiau šis metodas yra toli gražu ne idealus, nes leidžia algoritmui labai netiksliai nustatyti objekto ribas. Norint tiksliau nustatyti vietą, reikia atlikti tam tikrą regresiją, kad būtų galima prognozuoti ribų koordinates – tam reikalingi specifiniai duomenų rinkiniai.

Regresija objektų atpažinimui

Šis tinklaraščio įrašas puikiai paaiškina, kaip atpažinti formas.

Duomenų rinkiniai objektų atpažinimui

Galite susidurti su šiais duomenų rinkiniais:

PASCAL VOC – 20 klasių
COCO – Įprasti objektai kontekste. 80 klasių, ribų dėžutės ir segmentavimo kaukės

Objektų atpažinimo metrikos

Sankirta per sąjungą (Intersection over Union)

Vaizdų klasifikavimui lengva išmatuoti, kaip gerai veikia algoritmas, tačiau objektų atpažinimui reikia įvertinti tiek klasės teisingumą, tiek numatytos ribų dėžutės vietos tikslumą. Pastarajam naudojama vadinamoji Sankirta per sąjungą (IoU), kuri matuoja, kaip gerai sutampa dvi dėžutės (arba dvi savavališkos sritys).

2 paveikslas iš puikaus tinklaraščio apie IoU

Idėja paprasta – padalijame dviejų figūrų sankirtos plotą iš jų sąjungos ploto. Dviem identiškoms sritims IoU būtų 1, o visiškai nesutampančioms – 0. Kitais atvejais IoU svyruos nuo 0 iki 1. Paprastai laikome tik tas ribų dėžutes, kurių IoU viršija tam tikrą vertę.

Vidutinė tikslumas (Average Precision)

Tarkime, norime įvertinti, kaip gerai atpažįstama tam tikra objektų klasė $C$. Tam naudojame Vidutinio tikslumo metriką, kuri apskaičiuojama taip:

Tikslumo ir atpažinimo kreivė rodo tikslumą priklausomai nuo atpažinimo slenksčio vertės (nuo 0 iki 1).
Priklausomai nuo slenksčio, paveikslėlyje bus aptikta daugiau arba mažiau objektų, o tikslumo ir atpažinimo vertės skirsis.
Kreivė atrodys taip:

Vaizdas iš NeuroWorkshop

Vidutinis tikslumas tam tikrai klasei $C$ yra plotas po šia kreive. Tiksliau, atpažinimo ašis paprastai padalijama į 10 dalių, o tikslumas vidurkinamas per visus šiuos taškus:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP ir IoU

Aptarsime tik tuos aptikimus, kurių IoU viršija tam tikrą vertę. Pavyzdžiui, PASCAL VOC duomenų rinkinyje paprastai $\mbox{IoU Threshold} = 0.5$, o COCO AP matuojamas skirtingoms $\mbox{IoU Threshold}$ vertėms.

Vaizdas iš NeuroWorkshop

Vidutinis vidutinis tikslumas – mAP

Pagrindinė objektų atpažinimo metrika vadinama Vidutiniu vidutiniu tikslumu, arba mAP. Tai yra vidutinio tikslumo vertė, vidurkinama per visas objektų klases, o kartais ir per $\mbox{IoU Threshold}$. Išsamiau apie mAP skaičiavimo procesą galite perskaityti šiame tinklaraščio įraše), taip pat čia su kodo pavyzdžiais.

Skirtingi objektų atpažinimo metodai

Yra dvi pagrindinės objektų atpažinimo algoritmų klasės:

Regionų pasiūlymo tinklai (R-CNN, Fast R-CNN, Faster R-CNN). Pagrindinė idėja – generuoti interesų regionus (ROI) ir per juos paleisti CNN, ieškant didžiausios aktyvacijos. Tai šiek tiek panašu į naivų metodą, išskyrus tai, kad ROI generuojami protingesniu būdu. Vienas pagrindinių tokių metodų trūkumų yra tas, kad jie yra lėti, nes reikia daug CNN klasifikatoriaus perėjimų per vaizdą.
Vieno perėjimo (YOLO, SSD, RetinaNet) metodai. Šiose architektūrose tinklas sukurtas taip, kad vienu perėjimu prognozuotų tiek klases, tiek ROI.

R-CNN: Regionais pagrįstas CNN

R-CNN naudoja Selektyvų paiešką, kad sukurtų hierarchinę ROI regionų struktūrą, kuri vėliau perduodama per CNN funkcijų ištraukėjus ir SVM klasifikatorius, kad būtų nustatyta objekto klasė, o linijinė regresija naudojama ribų dėžutės koordinatėms nustatyti. Oficialus straipsnis

Vaizdas iš van de Sande et al. ICCV’11

Vaizdai iš šio tinklaraščio

F-RCNN – Greitas R-CNN

Šis metodas panašus į R-CNN, tačiau regionai apibrėžiami po konvoliucinių sluoksnių taikymo.

Vaizdas iš oficialaus straipsnio, arXiv, 2015

Greitesnis R-CNN

Pagrindinė šio metodo idėja – naudoti neuroninį tinklą ROI prognozavimui – vadinamąjį Regionų pasiūlymo tinklą. Straipsnis, 2016

Vaizdas iš oficialaus straipsnio

R-FCN: Regionais pagrįstas visiškai konvoliucinis tinklas

Šis algoritmas yra dar greitesnis nei Greitesnis R-CNN. Pagrindinė idėja yra tokia:

Ištraukiame funkcijas naudodami ResNet-101.
Funkcijos apdorojamos Pozicijos jautriu rezultatų žemėlapiu. Kiekvienas objektas iš $C$ klasių padalijamas į $k\times k$ regionus, ir mes treniruojame tinklą prognozuoti objektų dalis.
Kiekvienai daliai iš $k\times k$ regionų visi tinklai balsuoja už objektų klases, ir klasė su didžiausiu balsų skaičiumi yra pasirinkta.

Vaizdas iš oficialaus straipsnio

YOLO – You Only Look Once

YOLO yra realaus laiko vieno perėjimo algoritmas. Pagrindinė idėja yra tokia:

Vaizdas padalijamas į $S\times S$ regionus.
Kiekvienam regionui CNN prognozuoja $n$ galimų objektų, ribų dėžutės koordinates ir pasitikėjimą=tikimybę * IoU.

Vaizdas iš oficialaus straipsnio

Kiti algoritmai

RetinaNet: oficialus straipsnis
- PyTorch įgyvendinimas Torchvision
- Keras įgyvendinimas
- Objektų atpažinimas su RetinaNet Keras pavyzdžiuose
SSD (Single Shot Detector): oficialus straipsnis

✍️ Pratimai: Objektų atpažinimas

Tęskite mokymąsi šiame sąsiuvinyje:

ObjectDetection.ipynb

Išvada

Šioje pamokoje apžvelgėte įvairius būdus, kaip galima atlikti objektų atpažinimą!

🚀 Iššūkis

Perskaitykite šiuos straipsnius ir sąsiuvinius apie YOLO ir išbandykite juos patys:

Puikus tinklaraščio įrašas apie YOLO
Oficiali svetainė
Yolo: Keras įgyvendinimas, žingsnis po žingsnio sąsiuvinis
Yolo v2: Keras įgyvendinimas, žingsnis po žingsnio sąsiuvinis

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Objektų atpažinimas

Prieš paskaitą: testas

Naivus požiūris į objektų atpažinimą

Regresija objektų atpažinimui

Duomenų rinkiniai objektų atpažinimui

Objektų atpažinimo metrikos