ఇప్పటివరకు మనం చూసిన ఇమేజ్ క్లాసిఫికేషన్ మోడల్స్ ఒక చిత్రాన్ని తీసుకుని, ఉదాహరణకు MNIST సమస్యలో 'నంబర్' అనే క్లాస్ వంటి వర్గీకరణ ఫలితాన్ని ఉత్పత్తి చేసేవి. అయితే, చాలా సందర్భాల్లో మనం కేవలం ఒక చిత్రం వస్తువులను చూపిస్తుందని తెలుసుకోవడం కాకుండా, వాటి ఖచ్చితమైన స్థానం కూడా తెలుసుకోవాలనుకుంటాము. ఇదే ఆబ్జెక్ట్ డిటెక్షన్ యొక్క ముఖ్య ఉద్దేశ్యం.
చిత్రం YOLO v2 వెబ్ సైట్ నుండి
ఒక చిత్రంలో పిల్లిని కనుగొనాలనుకుంటే, ఆబ్జెక్ట్ డిటెక్షన్కు చాలా సాదాసీదా విధానం ఇలా ఉంటుంది:
- చిత్రాన్ని అనేక టైల్స్గా విభజించండి
- ప్రతి టైల్స్పై ఇమేజ్ క్లాసిఫికేషన్ నడపండి.
- తగినంతగా అధిక యాక్టివేషన్ ఉన్న టైల్స్ ఆ వస్తువు ఉన్నట్లు భావించవచ్చు.
చిత్రం Exercise Notebook నుండి
కానీ, ఈ విధానం సరైనది కాదు, ఎందుకంటే ఇది ఆబ్జెక్ట్ యొక్క బౌండింగ్ బాక్స్ను చాలా అస్పష్టంగా మాత్రమే గుర్తించగలదు. ఖచ్చితమైన స్థానం కోసం, బౌండింగ్ బాక్స్ కోఆర్డినేట్లను అంచనా వేయడానికి ఒక రకమైన రెగ్రెషన్ అవసరం - దానికి ప్రత్యేక డేటాసెట్లు అవసరం.
ఈ బ్లాగ్ పోస్ట్ ఆకారాలను గుర్తించడంపై మంచి పరిచయాన్ని అందిస్తుంది.
ఈ పనికి మీరు ఈ క్రింది డేటాసెట్లను చూడవచ్చు:
- PASCAL VOC - 20 తరగతులు
- COCO - Common Objects in Context. 80 తరగతులు, బౌండింగ్ బాక్స్లు మరియు సెగ్మెంటేషన్ మాస్కులు
ఇమేజ్ క్లాసిఫికేషన్లో అల్గోరిథం ఎంత బాగా పనిచేస్తుందో కొలవడం సులభం, కానీ ఆబ్జెక్ట్ డిటెక్షన్లో క్లాస్ సరైనదా మరియు అంచనా వేయబడిన బౌండింగ్ బాక్స్ స్థానం ఎంత ఖచ్చితమో రెండింటినీ కొలవాలి. రెండవదానికి, మనం ఇంటర్సెక్షన్ ఓవర్ యూనియన్ (IoU) అనే ప్రమాణాన్ని ఉపయోగిస్తాము, ఇది రెండు బాక్స్లు (లేదా ఏదైనా రెండు ప్రాంతాలు) ఎంత overlap అవుతాయో కొలుస్తుంది.
చిత్రం ఈ అద్భుతమైన IoU బ్లాగ్ పోస్ట్ నుండి
సూత్రం సులభం - రెండు ఆకారాల మధ్య ఇంటర్సెక్షన్ ప్రాంతాన్ని వారి యూనియన్ ప్రాంతంతో భాగిస్తాము. రెండు సమాన ప్రాంతాల కోసం IoU విలువ 1 అవుతుంది, పూర్తిగా వేరే ప్రాంతాల కోసం 0 అవుతుంది. మిగతా సందర్భాల్లో 0 నుండి 1 మధ్య ఉంటుంది. సాధారణంగా మనం IoU ఒక నిర్దిష్ట విలువ కంటే ఎక్కువ ఉన్న బౌండింగ్ బాక్స్లను మాత్రమే పరిగణిస్తాము.
ఒక నిర్దిష్ట వస్తువు తరగతి
- ప్రిసిషన్-రికాల్ వక్రం (Precision-Recall curve) డిటెక్షన్ థ్రెషోల్డ్ విలువ (0 నుండి 1 వరకు) ఆధారంగా ఖచ్చితత్వాన్ని చూపుతుంది.
- థ్రెషోల్డ్ ఆధారంగా, చిత్రంలో ఎక్కువ లేదా తక్కువ వస్తువులు గుర్తించబడతాయి, మరియు ప్రిసిషన్, రికాల్ విలువలు మారుతాయి.
- వక్రం ఇలా ఉంటుంది:
చిత్రం NeuroWorkshop నుండి
ఒక క్లాస్
మనం IoU ఒక నిర్దిష్ట విలువ కంటే ఎక్కువ ఉన్న డిటెక్షన్లను మాత్రమే పరిగణిస్తాము. ఉదాహరణకు, PASCAL VOC డేటాసెట్లో సాధారణంగా
చిత్రం NeuroWorkshop నుండి
ఆబ్జెక్ట్ డిటెక్షన్ కోసం ప్రధాన మెట్రిక్ Mean Average Precision లేదా mAP అని పిలవబడుతుంది. ఇది అన్ని వస్తువు తరగతులపై సగటుగా తీసుకున్న సగటు ప్రిసిషన్ విలువ, మరియు కొన్నిసార్లు
ఆబ్జెక్ట్ డిటెక్షన్ అల్గోరిథమ్స్ రెండు ప్రధాన తరగతులుగా ఉంటాయి:
- Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN). ప్రధాన ఆలోచన Regions of Interests (ROI) సృష్టించి, వాటిపై CNN నడిపించి గరిష్ట యాక్టివేషన్ కోసం చూడటం. ఇది సాదాసీదా విధానానికి సమానంగా ఉంటుంది, కానీ ROIs మరింత తెలివైన విధంగా సృష్టిస్తారు. ఇలాంటి పద్ధతుల ప్రధాన లోపం అవి నెమ్మదిగా ఉండటం, ఎందుకంటే చిత్రంపై CNN క్లాసిఫయర్ను అనేక సార్లు నడపాలి.
- ఒకసారి నడిపే (YOLO, SSD, RetinaNet) పద్ధతులు. ఈ ఆర్కిటెక్చర్లలో నెట్వర్క్ ఒకసారి నడిపితేనే క్లాసులు మరియు ROIs రెండింటినీ అంచనా వేస్తుంది.
R-CNN Selective Search ఉపయోగించి ROI ప్రాంతాల హైరార్కికల్ నిర్మాణాన్ని సృష్టిస్తుంది, వాటిని CNN ఫీచర్ ఎక్స్ట్రాక్టర్లు మరియు SVM-క్లాసిఫయర్లకు పంపించి వస్తువు తరగతిని నిర్ణయిస్తారు, మరియు లీనియర్ రెగ్రెషన్ ద్వారా బౌండింగ్ బాక్స్ కోఆర్డినేట్లను అంచనా వేస్తారు. అధికారిక పేపర్
చిత్రం van de Sande et al. ICCV’11 నుండి
చిత్రాలు ఈ బ్లాగ్ నుండి
ఈ విధానం R-CNNకి సమానంగా ఉంటుంది, కానీ ప్రాంతాలు కన్వల్యూషన్ లేయర్లు వరుసగా వర్తించిన తర్వాత నిర్వచించబడతాయి.
చిత్రం అధికారిక పేపర్, arXiv, 2015 నుండి
ఈ విధానం ప్రధాన ఆలోచన ROIs అంచనా వేయడానికి న్యూరల్ నెట్వర్క్ను ఉపయోగించడం - దీనిని Region Proposal Network అంటారు. పేపర్, 2016
చిత్రం అధికారిక పేపర్ నుండి
ఈ అల్గోరిథం Faster R-CNN కంటే కూడా వేగంగా ఉంటుంది. ప్రధాన ఆలోచన:
- ResNet-101 ఉపయోగించి ఫీచర్లను తీసుకోవడం
- ఫీచర్లు Position-Sensitive Score Map ద్వారా ప్రాసెస్ చేయబడతాయి.
$C$ తరగతులలో ప్రతి వస్తువు$k\times k$ ప్రాంతాలుగా విభజించబడుతుంది, మరియు మనం వస్తువుల భాగాలను అంచనా వేయడానికి శిక్షణ పొందుతాము. -
$k\times k$ ప్రాంతాల ప్రతి భాగం కోసం అన్ని నెట్వర్క్లు వస్తువు తరగతుల కోసం ఓటు వేస్తాయి, గరిష్ట ఓటు పొందిన వస్తువు తరగతి ఎంచుకోబడుతుంది.
చిత్రం అధికారిక పేపర్ నుండి
YOLO ఒక రియల్టైమ్ ఒకసారి నడిపే అల్గోరిథం. ప్రధాన ఆలోచన:
- చిత్రాన్ని
$S\times S$ ప్రాంతాలుగా విభజించడం - ప్రతి ప్రాంతం కోసం, CNN
$n$ సాధ్యమైన వస్తువులు, బౌండింగ్ బాక్స్ కోఆర్డినేట్లు మరియు confidence = probability * IoU అంచనా వేయడం.
చిత్రం అధికారిక పేపర్ నుండి
- RetinaNet: అధికారిక పేపర్
- SSD (Single Shot Detector): అధికారిక పేపర్
మీ అభ్యాసాన్ని ఈ నోట్బుక్లో కొనసాగించండి:
ఈ పాఠంలో మీరు ఆబ్జెక్ట్ డిటెక్షన్ సాధించగల వివిధ మార్గాలను ఒక సారాంశంగా చూశారు!
YOLO గురించి ఈ వ్యాసాలు మరియు నోట్బుక్స్ చదవండి మరియు వాటిని స్వయంగా ప్రయత్నించండి
- YOLO గురించి మంచి బ్లాగ్ పోస్ట్
- అధికారిక సైట్
- Yolo: Keras అమలు, దశల వారీ నోట్బుక్
- Yolo v2: Keras అమలు, దశల వారీ నోట్బుక్
- ఆబ్జెక్ట్ డిటెక్షన్ - నిఖిల్ సర్దానా
- ఆబ్జెక్ట్ డిటెక్షన్ అల్గోరిథమ్స్ మంచి పోలిక
- ఆబ్జెక్ట్ డిటెక్షన్ కోసం డీప్ లెర్నింగ్ అల్గోరిథమ్స్ సమీక్ష
- ప్రాథమిక ఆబ్జెక్ట్ డిటెక్షన్ అల్గోరిథమ్స్కు దశల వారీ పరిచయం
- ఫాస్టర్ R-CNN ఆబ్జెక్ట్ డిటెక్షన్ కోసం Pythonలో అమలు
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.











