Skip to content

Latest commit

 

History

History
182 lines (104 loc) · 20 KB

File metadata and controls

182 lines (104 loc) · 20 KB

ఆబ్జెక్ట్ డిటెక్షన్

ఇప్పటివరకు మనం చూసిన ఇమేజ్ క్లాసిఫికేషన్ మోడల్స్ ఒక చిత్రాన్ని తీసుకుని, ఉదాహరణకు MNIST సమస్యలో 'నంబర్' అనే క్లాస్ వంటి వర్గీకరణ ఫలితాన్ని ఉత్పత్తి చేసేవి. అయితే, చాలా సందర్భాల్లో మనం కేవలం ఒక చిత్రం వస్తువులను చూపిస్తుందని తెలుసుకోవడం కాకుండా, వాటి ఖచ్చితమైన స్థానం కూడా తెలుసుకోవాలనుకుంటాము. ఇదే ఆబ్జెక్ట్ డిటెక్షన్ యొక్క ముఖ్య ఉద్దేశ్యం.

Object Detection

చిత్రం YOLO v2 వెబ్ సైట్ నుండి

ఆబ్జెక్ట్ డిటెక్షన్‌కు ఒక సాదాసీదా విధానం

ఒక చిత్రంలో పిల్లిని కనుగొనాలనుకుంటే, ఆబ్జెక్ట్ డిటెక్షన్‌కు చాలా సాదాసీదా విధానం ఇలా ఉంటుంది:

  1. చిత్రాన్ని అనేక టైల్స్‌గా విభజించండి
  2. ప్రతి టైల్స్‌పై ఇమేజ్ క్లాసిఫికేషన్ నడపండి.
  3. తగినంతగా అధిక యాక్టివేషన్ ఉన్న టైల్స్ ఆ వస్తువు ఉన్నట్లు భావించవచ్చు.

Naive Object Detection

చిత్రం Exercise Notebook నుండి

కానీ, ఈ విధానం సరైనది కాదు, ఎందుకంటే ఇది ఆబ్జెక్ట్ యొక్క బౌండింగ్ బాక్స్‌ను చాలా అస్పష్టంగా మాత్రమే గుర్తించగలదు. ఖచ్చితమైన స్థానం కోసం, బౌండింగ్ బాక్స్ కోఆర్డినేట్లను అంచనా వేయడానికి ఒక రకమైన రెగ్రెషన్ అవసరం - దానికి ప్రత్యేక డేటాసెట్లు అవసరం.

ఆబ్జెక్ట్ డిటెక్షన్ కోసం రెగ్రెషన్

ఈ బ్లాగ్ పోస్ట్ ఆకారాలను గుర్తించడంపై మంచి పరిచయాన్ని అందిస్తుంది.

ఆబ్జెక్ట్ డిటెక్షన్ కోసం డేటాసెట్లు

ఈ పనికి మీరు ఈ క్రింది డేటాసెట్లను చూడవచ్చు:

  • PASCAL VOC - 20 తరగతులు
  • COCO - Common Objects in Context. 80 తరగతులు, బౌండింగ్ బాక్స్‌లు మరియు సెగ్మెంటేషన్ మాస్కులు

COCO

ఆబ్జెక్ట్ డిటెక్షన్ మెట్రిక్స్

ఇంటర్సెక్షన్ ఓవర్ యూనియన్

ఇమేజ్ క్లాసిఫికేషన్‌లో అల్గోరిథం ఎంత బాగా పనిచేస్తుందో కొలవడం సులభం, కానీ ఆబ్జెక్ట్ డిటెక్షన్‌లో క్లాస్ సరైనదా మరియు అంచనా వేయబడిన బౌండింగ్ బాక్స్ స్థానం ఎంత ఖచ్చితమో రెండింటినీ కొలవాలి. రెండవదానికి, మనం ఇంటర్సెక్షన్ ఓవర్ యూనియన్ (IoU) అనే ప్రమాణాన్ని ఉపయోగిస్తాము, ఇది రెండు బాక్స్‌లు (లేదా ఏదైనా రెండు ప్రాంతాలు) ఎంత overlap అవుతాయో కొలుస్తుంది.

IoU

చిత్రం ఈ అద్భుతమైన IoU బ్లాగ్ పోస్ట్ నుండి

సూత్రం సులభం - రెండు ఆకారాల మధ్య ఇంటర్సెక్షన్ ప్రాంతాన్ని వారి యూనియన్ ప్రాంతంతో భాగిస్తాము. రెండు సమాన ప్రాంతాల కోసం IoU విలువ 1 అవుతుంది, పూర్తిగా వేరే ప్రాంతాల కోసం 0 అవుతుంది. మిగతా సందర్భాల్లో 0 నుండి 1 మధ్య ఉంటుంది. సాధారణంగా మనం IoU ఒక నిర్దిష్ట విలువ కంటే ఎక్కువ ఉన్న బౌండింగ్ బాక్స్‌లను మాత్రమే పరిగణిస్తాము.

సగటు ప్రిసిషన్

ఒక నిర్దిష్ట వస్తువు తరగతి $C$ ఎంత బాగా గుర్తించబడిందో కొలవాలనుకుంటే, మనం సగటు ప్రిసిషన్ (Average Precision) మెట్రిక్‌ను ఉపయోగిస్తాము, ఇది ఇలా లెక్కించబడుతుంది:

  1. ప్రిసిషన్-రికాల్ వక్రం (Precision-Recall curve) డిటెక్షన్ థ్రెషోల్డ్ విలువ (0 నుండి 1 వరకు) ఆధారంగా ఖచ్చితత్వాన్ని చూపుతుంది.
  2. థ్రెషోల్డ్ ఆధారంగా, చిత్రంలో ఎక్కువ లేదా తక్కువ వస్తువులు గుర్తించబడతాయి, మరియు ప్రిసిషన్, రికాల్ విలువలు మారుతాయి.
  3. వక్రం ఇలా ఉంటుంది:

చిత్రం NeuroWorkshop నుండి

ఒక క్లాస్ $C$ కోసం సగటు ప్రిసిషన్ అనేది ఈ వక్రం క్రింద ఉన్న ప్రాంతం. మరింత ఖచ్చితంగా చెప్పాలంటే, రికాల్ అక్షం సాధారణంగా 10 భాగాలుగా విభజించబడుతుంది, మరియు ఆ పాయింట్లపై ప్రిసిషన్ సగటు తీసుకుంటారు:

$$ AP = {1\over11}\sum_{i=0}^{10}\mbox{Precision}(\mbox{Recall}={i\over10}) $$

AP మరియు IoU

మనం IoU ఒక నిర్దిష్ట విలువ కంటే ఎక్కువ ఉన్న డిటెక్షన్లను మాత్రమే పరిగణిస్తాము. ఉదాహరణకు, PASCAL VOC డేటాసెట్‌లో సాధారణంగా $\mbox{IoU Threshold} = 0.5$ అనుకుంటారు, COCOలో AP వివిధ $\mbox{IoU Threshold}$ విలువల కోసం కొలుస్తారు.

చిత్రం NeuroWorkshop నుండి

సగటు సగటు ప్రిసిషన్ - mAP

ఆబ్జెక్ట్ డిటెక్షన్ కోసం ప్రధాన మెట్రిక్ Mean Average Precision లేదా mAP అని పిలవబడుతుంది. ఇది అన్ని వస్తువు తరగతులపై సగటుగా తీసుకున్న సగటు ప్రిసిషన్ విలువ, మరియు కొన్నిసార్లు $\mbox{IoU Threshold}$ పై కూడా సగటు తీసుకుంటారు. మరింత వివరంగా, mAP లెక్కింపు ప్రక్రియను ఈ బ్లాగ్ పోస్ట్)లో మరియు కోడ్ నమూనాలతో ఇక్కడ చూడవచ్చు.

వివిధ ఆబ్జెక్ట్ డిటెక్షన్ విధానాలు

ఆబ్జెక్ట్ డిటెక్షన్ అల్గోరిథమ్స్ రెండు ప్రధాన తరగతులుగా ఉంటాయి:

  • Region Proposal Networks (R-CNN, Fast R-CNN, Faster R-CNN). ప్రధాన ఆలోచన Regions of Interests (ROI) సృష్టించి, వాటిపై CNN నడిపించి గరిష్ట యాక్టివేషన్ కోసం చూడటం. ఇది సాదాసీదా విధానానికి సమానంగా ఉంటుంది, కానీ ROIs మరింత తెలివైన విధంగా సృష్టిస్తారు. ఇలాంటి పద్ధతుల ప్రధాన లోపం అవి నెమ్మదిగా ఉండటం, ఎందుకంటే చిత్రంపై CNN క్లాసిఫయర్‌ను అనేక సార్లు నడపాలి.
  • ఒకసారి నడిపే (YOLO, SSD, RetinaNet) పద్ధతులు. ఈ ఆర్కిటెక్చర్లలో నెట్‌వర్క్ ఒకసారి నడిపితేనే క్లాసులు మరియు ROIs రెండింటినీ అంచనా వేస్తుంది.

R-CNN: Region-Based CNN

R-CNN Selective Search ఉపయోగించి ROI ప్రాంతాల హైరార్కికల్ నిర్మాణాన్ని సృష్టిస్తుంది, వాటిని CNN ఫీచర్ ఎక్స్‌ట్రాక్టర్లు మరియు SVM-క్లాసిఫయర్లకు పంపించి వస్తువు తరగతిని నిర్ణయిస్తారు, మరియు లీనియర్ రెగ్రెషన్ ద్వారా బౌండింగ్ బాక్స్ కోఆర్డినేట్లను అంచనా వేస్తారు. అధికారిక పేపర్

RCNN

చిత్రం van de Sande et al. ICCV’11 నుండి

RCNN-1

చిత్రాలు ఈ బ్లాగ్ నుండి

F-RCNN - ఫాస్ట్ R-CNN

ఈ విధానం R-CNNకి సమానంగా ఉంటుంది, కానీ ప్రాంతాలు కన్వల్యూషన్ లేయర్లు వరుసగా వర్తించిన తర్వాత నిర్వచించబడతాయి.

FRCNN

చిత్రం అధికారిక పేపర్, arXiv, 2015 నుండి

Faster R-CNN

ఈ విధానం ప్రధాన ఆలోచన ROIs అంచనా వేయడానికి న్యూరల్ నెట్‌వర్క్‌ను ఉపయోగించడం - దీనిని Region Proposal Network అంటారు. పేపర్, 2016

FasterRCNN

చిత్రం అధికారిక పేపర్ నుండి

R-FCN: Region-Based Fully Convolutional Network

ఈ అల్గోరిథం Faster R-CNN కంటే కూడా వేగంగా ఉంటుంది. ప్రధాన ఆలోచన:

  1. ResNet-101 ఉపయోగించి ఫీచర్లను తీసుకోవడం
  2. ఫీచర్లు Position-Sensitive Score Map ద్వారా ప్రాసెస్ చేయబడతాయి. $C$ తరగతులలో ప్రతి వస్తువు $k\times k$ ప్రాంతాలుగా విభజించబడుతుంది, మరియు మనం వస్తువుల భాగాలను అంచనా వేయడానికి శిక్షణ పొందుతాము.
  3. $k\times k$ ప్రాంతాల ప్రతి భాగం కోసం అన్ని నెట్‌వర్క్లు వస్తువు తరగతుల కోసం ఓటు వేస్తాయి, గరిష్ట ఓటు పొందిన వస్తువు తరగతి ఎంచుకోబడుతుంది.

r-fcn image

చిత్రం అధికారిక పేపర్ నుండి

YOLO - You Only Look Once

YOLO ఒక రియల్‌టైమ్ ఒకసారి నడిపే అల్గోరిథం. ప్రధాన ఆలోచన:

  • చిత్రాన్ని $S\times S$ ప్రాంతాలుగా విభజించడం
  • ప్రతి ప్రాంతం కోసం, CNN $n$ సాధ్యమైన వస్తువులు, బౌండింగ్ బాక్స్ కోఆర్డినేట్లు మరియు confidence = probability * IoU అంచనా వేయడం.

YOLO

చిత్రం అధికారిక పేపర్ నుండి

ఇతర అల్గోరిథమ్స్

✍️ వ్యాయామాలు: ఆబ్జెక్ట్ డిటెక్షన్

మీ అభ్యాసాన్ని ఈ నోట్బుక్‌లో కొనసాగించండి:

ObjectDetection.ipynb

ముగింపు

ఈ పాఠంలో మీరు ఆబ్జెక్ట్ డిటెక్షన్ సాధించగల వివిధ మార్గాలను ఒక సారాంశంగా చూశారు!

🚀 సవాలు

YOLO గురించి ఈ వ్యాసాలు మరియు నోట్బుక్స్ చదవండి మరియు వాటిని స్వయంగా ప్రయత్నించండి

సమీక్ష & స్వీయ అధ్యయనం


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. మూల పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారుల కోసం మేము బాధ్యత వహించము.