Mifano ya uainishaji wa picha tuliyojifunza hadi sasa ilichukua picha na kutoa matokeo ya kategoria, kama vile darasa 'namba' katika tatizo la MNIST. Hata hivyo, mara nyingi hatutaki tu kujua kwamba picha inaonyesha vitu - tunataka pia kujua mahali vilipo kwa usahihi. Hii ndiyo hasa dhumuni la utambuzi wa vitu.
Picha kutoka tovuti ya YOLO v2
Tukidhani tunataka kutambua paka kwenye picha, njia rahisi ya utambuzi wa vitu inaweza kuwa kama ifuatavyo:
- Gawanya picha katika vigae kadhaa.
- Fanya uainishaji wa picha kwenye kila kigae.
- Vigae vile vinavyotoa matokeo ya juu vya kutosha vinaweza kuchukuliwa kuwa na kitu kinachotafutwa.
Picha kutoka Daftari la Mazoezi
Hata hivyo, njia hii si bora, kwa sababu inaruhusu tu algorithimu kupata eneo la kitu kwa usahihi mdogo. Kwa usahihi zaidi, tunahitaji kutumia aina fulani ya usawazishaji ili kutabiri mipaka ya maboksi - na kwa hilo, tunahitaji seti maalum za data.
Chapisho hili la blogu lina utangulizi mzuri wa kutambua maumbo.
Unaweza kukutana na seti zifuatazo za data kwa kazi hii:
- PASCAL VOC - madarasa 20
- COCO - Vitu vya Kawaida katika Muktadha. Madarasa 80, maboksi ya mipaka na maski za kugawanya
Wakati kwa uainishaji wa picha ni rahisi kupima jinsi algorithimu inavyofanya kazi, kwa utambuzi wa vitu tunahitaji kupima usahihi wa darasa, pamoja na usahihi wa eneo la boksi lililotabiriwa. Kwa hili la mwisho, tunatumia kipimo kinachoitwa Muingiliano juu ya Muungano (IoU), ambacho hupima jinsi maboksi mawili (au maeneo mawili yoyote) yanavyofanana.
Mchoro wa 2 kutoka blogu hii bora kuhusu IoU
Wazo ni rahisi - tunagawanya eneo la muingiliano kati ya maumbo mawili kwa eneo la muungano wao. Kwa maeneo mawili yanayofanana kabisa, IoU itakuwa 1, wakati kwa maeneo yasiyogusana kabisa itakuwa 0. Vinginevyo, itatofautiana kati ya 0 na 1. Kwa kawaida tunazingatia tu maboksi yale ambayo IoU iko juu ya thamani fulani.
Tukidhani tunataka kupima jinsi darasa fulani la vitu
- Fikiria mchoro wa Usahihi-Kumbukumbu unaonyesha usahihi kulingana na thamani ya kizingiti cha utambuzi (kutoka 0 hadi 1).
- Kulingana na kizingiti, tutapata vitu vingi au vichache vilivyotambuliwa kwenye picha, na maadili tofauti ya usahihi na kumbukumbu.
- Mchoro utaonekana kama huu:
Picha kutoka NeuroWorkshop
Usahihi wa Wastani kwa darasa fulani
Tutazingatia tu utambuzi ule ambao IoU iko juu ya thamani fulani. Kwa mfano, katika seti ya data ya PASCAL VOC kwa kawaida
Picha kutoka NeuroWorkshop
Kipimo kikuu cha Utambuzi wa Vitu kinaitwa Usahihi wa Wastani wa Kati, au mAP. Hii ni thamani ya Usahihi wa Wastani, wastani kwa madarasa yote ya vitu, na wakati mwingine pia kwa
Kuna makundi mawili makuu ya algorithimu za utambuzi wa vitu:
- Mitandao ya Mapendekezo ya Maeneo (R-CNN, Fast R-CNN, Faster R-CNN). Wazo kuu ni kuzalisha Maeneo ya Maslahi (ROI) na kuendesha CNN juu yao, kutafuta uanzishaji wa juu zaidi. Hii ni sawa kidogo na njia rahisi, isipokuwa kwamba ROI huzalishwa kwa njia ya busara zaidi. Mojawapo ya changamoto kuu za mbinu hizi ni kwamba ni polepole, kwa sababu tunahitaji kupitisha mara nyingi CNN juu ya picha.
- Mbinu za kupita mara moja (YOLO, SSD, RetinaNet). Katika usanifu huu tunabuni mtandao kutabiri madarasa na ROI kwa mara moja.
R-CNN hutumia Utafutaji wa Kuchagua kuzalisha muundo wa kihierarkia wa maeneo ya ROI, ambayo kisha hupitishwa kupitia viondoa sifa vya CNN na vianuai vya SVM ili kubaini darasa la kitu, na usawazishaji wa mstari ili kubaini m coordinates ya maboksi ya mipaka. Karatasi Rasmi
Picha kutoka van de Sande et al. ICCV’11
*Picha kutoka blogu hii
Mbinu hii ni sawa na R-CNN, lakini maeneo hufafanuliwa baada ya tabaka za convolution kutumika.
Picha kutoka Karatasi Rasmi, arXiv, 2015
Wazo kuu la mbinu hii ni kutumia mtandao wa neva kutabiri ROI - kinachoitwa Mtandao wa Mapendekezo ya Maeneo. Karatasi, 2016
Picha kutoka karatasi rasmi
Algorithimu hii ni ya haraka zaidi kuliko Faster R-CNN. Wazo kuu ni kama ifuatavyo:
- Tunatoa sifa kwa kutumia ResNet-101.
- Sifa zinashughulikiwa na Ramani ya Alama Inayozingatia Nafasi. Kila kitu kutoka
$C$ madarasa hugawanywa kwa maeneo$k\times k$ , na tunafundisha kutabiri sehemu za vitu. - Kwa kila sehemu kutoka maeneo
$k\times k$ mitandao yote hupiga kura kwa madarasa ya vitu, na darasa la kitu lenye kura nyingi zaidi huchaguliwa.
Picha kutoka karatasi rasmi
YOLO ni algorithimu ya wakati halisi ya kupita mara moja. Wazo kuu ni kama ifuatavyo:
- Picha inagawanywa katika maeneo
$S\times S$ . - Kwa kila eneo, CNN inatabiri vitu
$n$ vinavyowezekana, m coordinates ya maboksi ya mipaka na uhakika=uwezekano * IoU.
Picha kutoka karatasi rasmi
- RetinaNet: karatasi rasmi
- Utekelezaji wa PyTorch katika Torchvision
- Utekelezaji wa Keras
- Utambuzi wa Vitu na RetinaNet katika Sampuli za Keras
- SSD (Single Shot Detector): karatasi rasmi
Endelea kujifunza katika daftari lifuatalo:
Katika somo hili umejifunza njia mbalimbali za kutekeleza utambuzi wa vitu!
Soma makala na daftari hizi kuhusu YOLO na ujaribu mwenyewe:
- Blogu nzuri inayofafanua YOLO
- Tovuti rasmi
- Yolo: Utekelezaji wa Keras, daftari la hatua kwa hatua
- Yolo v2: Utekelezaji wa Keras, daftari la hatua kwa hatua
- Utambuzi wa Vitu na Nikhil Sardana
- Ulinganisho mzuri wa algorithimu za utambuzi wa vitu
- Mapitio ya Algorithimu za Kujifunza Kina kwa Utambuzi wa Vitu
- Utangulizi wa Hatua kwa Hatua kwa Algorithimu za Msingi za Utambuzi wa Vitu
- Utekelezaji wa Faster R-CNN kwa Python kwa Utambuzi wa Vitu











