Vaizdų klasifikavimo modeliai, su kuriais dirbome iki šiol, paimdavo vaizdą ir pateikdavo kategorinį rezultatą, pavyzdžiui, klasę „skaičius“ MNIST problemos atveju. Tačiau daugeliu atvejų mums nepakanka žinoti, kad paveikslėlyje yra objektų – norime nustatyti jų tikslią vietą. Būtent tai ir yra objektų atpažinimo esmė.
Vaizdas iš YOLO v2 svetainės
Tarkime, norime rasti katę paveikslėlyje. Labai naivus požiūris į objektų atpažinimą būtų toks:
- Suskaidyti paveikslėlį į daugybę plytelių.
- Atlikti vaizdų klasifikavimą kiekvienoje plytelėje.
- Tos plytelės, kurios duoda pakankamai aukštą aktyvaciją, gali būti laikomos turinčiomis ieškomą objektą.
Vaizdas iš užduočių sąsiuvinio
Tačiau šis metodas yra toli gražu ne idealus, nes leidžia algoritmui labai netiksliai nustatyti objekto ribas. Norint tiksliau nustatyti vietą, reikia atlikti tam tikrą regresiją, kad būtų galima prognozuoti ribų koordinates – tam reikalingi specifiniai duomenų rinkiniai.
Šis tinklaraščio įrašas puikiai paaiškina, kaip atpažinti formas.
Galite susidurti su šiais duomenų rinkiniais:
- PASCAL VOC – 20 klasių
- COCO – Įprasti objektai kontekste. 80 klasių, ribų dėžutės ir segmentavimo kaukės
Vaizdų klasifikavimui lengva išmatuoti, kaip gerai veikia algoritmas, tačiau objektų atpažinimui reikia įvertinti tiek klasės teisingumą, tiek numatytos ribų dėžutės vietos tikslumą. Pastarajam naudojama vadinamoji Sankirta per sąjungą (IoU), kuri matuoja, kaip gerai sutampa dvi dėžutės (arba dvi savavališkos sritys).
2 paveikslas iš puikaus tinklaraščio apie IoU
Idėja paprasta – padalijame dviejų figūrų sankirtos plotą iš jų sąjungos ploto. Dviem identiškoms sritims IoU būtų 1, o visiškai nesutampančioms – 0. Kitais atvejais IoU svyruos nuo 0 iki 1. Paprastai laikome tik tas ribų dėžutes, kurių IoU viršija tam tikrą vertę.
Tarkime, norime įvertinti, kaip gerai atpažįstama tam tikra objektų klasė
- Tikslumo ir atpažinimo kreivė rodo tikslumą priklausomai nuo atpažinimo slenksčio vertės (nuo 0 iki 1).
- Priklausomai nuo slenksčio, paveikslėlyje bus aptikta daugiau arba mažiau objektų, o tikslumo ir atpažinimo vertės skirsis.
- Kreivė atrodys taip:
Vaizdas iš NeuroWorkshop
Vidutinis tikslumas tam tikrai klasei
Aptarsime tik tuos aptikimus, kurių IoU viršija tam tikrą vertę. Pavyzdžiui, PASCAL VOC duomenų rinkinyje paprastai
Vaizdas iš NeuroWorkshop
Pagrindinė objektų atpažinimo metrika vadinama Vidutiniu vidutiniu tikslumu, arba mAP. Tai yra vidutinio tikslumo vertė, vidurkinama per visas objektų klases, o kartais ir per
Yra dvi pagrindinės objektų atpažinimo algoritmų klasės:
- Regionų pasiūlymo tinklai (R-CNN, Fast R-CNN, Faster R-CNN). Pagrindinė idėja – generuoti interesų regionus (ROI) ir per juos paleisti CNN, ieškant didžiausios aktyvacijos. Tai šiek tiek panašu į naivų metodą, išskyrus tai, kad ROI generuojami protingesniu būdu. Vienas pagrindinių tokių metodų trūkumų yra tas, kad jie yra lėti, nes reikia daug CNN klasifikatoriaus perėjimų per vaizdą.
- Vieno perėjimo (YOLO, SSD, RetinaNet) metodai. Šiose architektūrose tinklas sukurtas taip, kad vienu perėjimu prognozuotų tiek klases, tiek ROI.
R-CNN naudoja Selektyvų paiešką, kad sukurtų hierarchinę ROI regionų struktūrą, kuri vėliau perduodama per CNN funkcijų ištraukėjus ir SVM klasifikatorius, kad būtų nustatyta objekto klasė, o linijinė regresija naudojama ribų dėžutės koordinatėms nustatyti. Oficialus straipsnis
Vaizdas iš van de Sande et al. ICCV’11
Vaizdai iš šio tinklaraščio
Šis metodas panašus į R-CNN, tačiau regionai apibrėžiami po konvoliucinių sluoksnių taikymo.
Vaizdas iš oficialaus straipsnio, arXiv, 2015
Pagrindinė šio metodo idėja – naudoti neuroninį tinklą ROI prognozavimui – vadinamąjį Regionų pasiūlymo tinklą. Straipsnis, 2016
Vaizdas iš oficialaus straipsnio
Šis algoritmas yra dar greitesnis nei Greitesnis R-CNN. Pagrindinė idėja yra tokia:
- Ištraukiame funkcijas naudodami ResNet-101.
- Funkcijos apdorojamos Pozicijos jautriu rezultatų žemėlapiu. Kiekvienas objektas iš
$C$ klasių padalijamas į$k\times k$ regionus, ir mes treniruojame tinklą prognozuoti objektų dalis. - Kiekvienai daliai iš
$k\times k$ regionų visi tinklai balsuoja už objektų klases, ir klasė su didžiausiu balsų skaičiumi yra pasirinkta.
Vaizdas iš oficialaus straipsnio
YOLO yra realaus laiko vieno perėjimo algoritmas. Pagrindinė idėja yra tokia:
- Vaizdas padalijamas į
$S\times S$ regionus. - Kiekvienam regionui CNN prognozuoja
$n$ galimų objektų, ribų dėžutės koordinates ir pasitikėjimą=tikimybę * IoU.
Vaizdas iš oficialaus straipsnio
- RetinaNet: oficialus straipsnis
- PyTorch įgyvendinimas Torchvision
- Keras įgyvendinimas
- Objektų atpažinimas su RetinaNet Keras pavyzdžiuose
- SSD (Single Shot Detector): oficialus straipsnis
Tęskite mokymąsi šiame sąsiuvinyje:
Šioje pamokoje apžvelgėte įvairius būdus, kaip galima atlikti objektų atpažinimą!
Perskaitykite šiuos straipsnius ir sąsiuvinius apie YOLO ir išbandykite juos patys:
- Puikus tinklaraščio įrašas apie YOLO
- Oficiali svetainė
- Yolo: Keras įgyvendinimas, žingsnis po žingsnio sąsiuvinis
- Yolo v2: Keras įgyvendinimas, žingsnis po žingsnio sąsiuvinis
- Objektų atpažinimas Nikhil Sardana
- Geras objektų atpažinimo algoritmų palyginimas
- Giliųjų mokymosi algoritmų apžvalga objektų atpažinimui
- Žingsnis po žingsnio įvadas į pagrindinius objektų atpažinimo algoritmus
- Greitesnio R-CNN įgyvendinimas Python kalba objektų atpažinimui











