நாம் இதுவரை பார்த்த பட வகைப்படுத்தல் மாதிரிகள் ஒரு படத்தை எடுத்துக்கொண்டு ஒரு வகைமுறை முடிவை உருவாக்கின, உதாரணமாக MNIST பிரச்சினையில் 'எண்' வகை. ஆனால், பல சந்தர்ப்பங்களில் ஒரு படம் பொருட்களை காட்டுகிறது என்பதை மட்டும் அறிய வேண்டாம் - அதன் துல்லியமான இடத்தை கண்டறிய விரும்புகிறோம். இதுவே பொருள் கண்டறிதல் என்ற கருத்தின் முக்கிய நோக்கம்.
ஒரு படத்தில் ஒரு பூனை கண்டறிய விரும்பினால், பொருள் கண்டறிதலுக்கான ஒரு மிக எளிய அணுகுமுறை இதுவாக இருக்கும்:
- படத்தை பல பகுதிகளாக பிரிக்கவும்.
- ஒவ்வொரு பகுதியிலும் பட வகைப்படுத்தலை இயக்கவும்.
- போதுமான அளவு செயல்பாட்டை உருவாக்கும் பகுதிகள், குறிப்பிட்ட பொருளை கொண்டதாக கருதலாம்.
படம் பயிற்சி நோட்புக் இலிருந்து
ஆனால், இந்த அணுகுமுறை சரியானது அல்ல, ஏனெனில் இது பொருளின் அளவுரு பெட்டியை (bounding box) மிகவும் துல்லியமாக கண்டறிய அனுமதிக்காது. மேலும் துல்லியமான இடத்தை கண்டறிய, மீள்பார்வை (regression) மூலம் அளவுரு பெட்டியின் கோர்டினேட்டுகளை கணிக்க வேண்டும் - இதற்காக குறிப்பிட்ட தரவுத்தொகுப்புகள் தேவைப்படும்.
இந்த வலைப்பதிவு வடிவங்களை கண்டறிய ஒரு சிறந்த அறிமுகத்தை வழங்குகிறது.
இந்த பணிக்கான சில தரவுத்தொகுப்புகளை நீங்கள் சந்திக்கலாம்:
- PASCAL VOC - 20 வகைகள்
- COCO - சூழலில் பொதுவான பொருட்கள். 80 வகைகள், அளவுரு பெட்டிகள் மற்றும் பிரிவுப் முகமூடிகள்
பட வகைப்படுத்தலுக்கான செயல்திறனை அளவிடுவது எளிதானது, ஆனால் பொருள் கண்டறிதலுக்கான வகையின் சரியானதையும், அளவுரு பெட்டியின் துல்லியத்தையும் அளவிட வேண்டும். இதற்காக இணைப்பு மற்றும் ஒன்றிணைவு (IoU) என்ற அளவுகோலைப் பயன்படுத்துகிறோம், இது இரண்டு பெட்டிகள் (அல்லது இரண்டு பகுதி பகுதிகள்) எவ்வளவு நன்றாக ஒத்துப்போகின்றன என்பதை அளவிடுகிறது.
இந்த சிறந்த வலைப்பதிவிலிருந்து IoU பற்றிய படங்கள்
காரியம் எளிதானது - இரண்டு வடிவங்களின் இணைப்பு பகுதியின் பரப்பளவை, அவற்றின் ஒன்றிணைவு பகுதியின் பரப்பளவால் வகுக்கிறோம். இரண்டு ஒரே வடிவங்களுக்கான IoU 1 ஆக இருக்கும், முழுமையாக வேறுபட்ட பகுதிகளுக்கு 0 ஆக இருக்கும். இல்லையெனில், இது 0 முதல் 1 வரை மாறும். IoU ஒரு குறிப்பிட்ட மதிப்புக்கு மேல் உள்ள அளவுரு பெட்டிகளை மட்டுமே நாம் கருதுகிறோம்.
ஒரு குறிப்பிட்ட வகை பொருட்கள்
- துல்லியம்-மீள்பார்வை (Precision-Recall) வளைவு, கண்டறிதல் உத்தேச மதிப்பின் (threshold) அடிப்படையில் துல்லியத்தை காட்டுகிறது (0 முதல் 1 வரை).
- உத்தேச மதிப்பின் அடிப்படையில், படத்தில் அதிகமான அல்லது குறைவான பொருட்கள் கண்டறியப்படும், மற்றும் துல்லியம் மற்றும் மீள்பார்வை மதிப்புகள் மாறும்.
- வளைவு இவ்வாறு இருக்கும்:
படம் NeuroWorkshop இலிருந்து
ஒரு குறிப்பிட்ட வகைக்கு
IoU ஒரு குறிப்பிட்ட மதிப்புக்கு மேல் உள்ள கண்டறிதல்களை மட்டுமே நாம் கருதுவோம். உதாரணமாக, PASCAL VOC தரவுத்தொகுப்பில் பொதுவாக
படம் NeuroWorkshop இலிருந்து
பொருள் கண்டறிதலுக்கான முக்கியமான அளவுகோல் Mean Average Precision அல்லது mAP என அழைக்கப்படுகிறது. இது அனைத்து பொருள் வகைகளிலும் சராசரி துல்லியத்தின் மதிப்பு, மற்றும் சில நேரங்களில்
பொருள் கண்டறிதல் அல்காரிதம்களுக்கு இரண்டு முக்கிய வகைகள் உள்ளன:
- பகுதி முன்மொழிவு நெட்வொர்க்குகள் (Region Proposal Networks) (R-CNN, Fast R-CNN, Faster R-CNN). முக்கியமான கருத்து பகுதி ஆர்வங்கள் (Regions of Interests) உருவாக்கி, அவற்றில் CNN இயக்கி அதிகபட்ச செயல்பாட்டை தேடுவது. இது எளிய அணுகுமுறையைப் போன்றது, ஆனால் ROIs (Regions of Interests) மிகவும் புத்திசாலித்தனமாக உருவாக்கப்படுகிறது. இந்த முறைகளின் முக்கிய குறைபாடுகளில் ஒன்று, இது மெதுவாக செயல்படுகிறது, ஏனெனில் படத்தில் CNN வகைப்படுத்தலை பல முறை இயக்க வேண்டும்.
- ஒரு முறை (One-pass) (YOLO, SSD, RetinaNet) முறைகள். இந்த கட்டமைப்புகளில், நெட்வொர்க்கை வகைகள் மற்றும் ROIs (Regions of Interests) ஒன்றாக கணிக்க வடிவமைக்கிறோம்.
R-CNN Selective Search பயன்படுத்தி ROI பகுதிகளின் அடுக்கமைப்பை உருவாக்குகிறது, பின்னர் CNN அம்சங்களைப் பயன்படுத்தி SVM வகைப்படுத்திகளை இயக்கி பொருள் வகையைத் தீர்மானிக்கிறது, மற்றும் அளவுரு பெட்டியின் கோர்டினேட்டுகளை தீர்மானிக்க நேரியல் மீள்பார்வையை (linear regression) பயன்படுத்துகிறது. அதிகாரப்பூர்வ ஆவணம்
படம் van de Sande et al. ICCV’11
படங்கள் இந்த வலைப்பதிவிலிருந்து
இந்த அணுகுமுறை R-CNN போன்றது, ஆனால் பகுதிகள் குவியல் அடுக்குகள் (convolution layers) பயன்படுத்தப்பட்ட பிறகு வரையறுக்கப்படுகின்றன.
படம் அதிகாரப்பூர்வ ஆவணத்திலிருந்து, arXiv, 2015
இந்த அணுகுமுறையின் முக்கியமான கருத்து, ROIs (Regions of Interests) கணிக்க நரம்பியல் நெட்வொர்க்கை (neural network) பயன்படுத்துவது - Region Proposal Network என அழைக்கப்படுகிறது. ஆவணம், 2016
இந்த அல்காரிதம் Faster R-CNN விட வேகமாக செயல்படுகிறது. முக்கியமான கருத்து பின்வருமாறு:
- ResNet-101 பயன்படுத்தி அம்சங்களை எடுக்கிறோம்.
-
Position-Sensitive Score Map மூலம் அம்சங்கள் செயல்படுத்தப்படுகின்றன.
$C$ வகைகளிலிருந்து ஒவ்வொரு பொருளும்$k\times k$ பகுதிகளால் பிரிக்கப்படுகிறது, மற்றும் பொருளின் பகுதிகளை கணிக்க பயிற்சி அளிக்கிறோம். -
$k\times k$ பகுதிகளிலிருந்து ஒவ்வொரு பகுதியும் பொருள் வகைகளுக்கு வாக்களிக்கிறது, மற்றும் அதிகபட்ச வாக்குகளைப் பெறும் பொருள் வகை தேர்ந்தெடுக்கப்படுகிறது.
YOLO ஒரு நேரடி ஒரு முறை அல்காரிதம். முக்கியமான கருத்து பின்வருமாறு:
- படம்
$S\times S$ பகுதிகளாகப் பிரிக்கப்படுகிறது. - ஒவ்வொரு பகுதிக்கும் CNN
$n$ சாத்தியமான பொருட்கள், அளவுரு பெட்டியின் கோர்டினேட்டுகள் மற்றும் நம்பகத்தன்மை=சாத்தியம் * IoU கணிக்கிறது.
- RetinaNet: அதிகாரப்பூர்வ ஆவணம்
- SSD (Single Shot Detector): அதிகாரப்பூர்வ ஆவணம்
பின்வரும் நோட்புக்கில் உங்கள் கற்றலை தொடருங்கள்:
இந்த பாடத்தில் பொருள் கண்டறிதலை அடைய பல்வேறு வழிகளை விரைவாகப் பார்வையிட்டீர்கள்!
இந்த கட்டுரைகள் மற்றும் நோட்புக்குகளைப் படித்து YOLO பற்றி அறிந்து, அதை நீங்கள் முயற்சிக்கவும்:
- YOLO பற்றி ஒரு நல்ல வலைப்பதிவு
- அதிகாரப்பூர்வ தளம்
- Yolo: Keras செயல்பாடு, கட்டம்-கட்டமாக நோட்புக்
- Yolo v2: Keras செயல்பாடு, கட்டம்-கட்டமாக நோட்புக்
- பொருள் கண்டறிதல் - Nikhil Sardana
- பொருள் கண்டறிதல் அல்காரிதம்களின் நல்ல ஒப்பீடு
- பொருள் கண்டறிதலுக்கான ஆழமான கற்றல் அல்காரிதம்களின் மதிப்பீடு
- அடிப்படை பொருள் கண்டறிதல் அல்காரிதம்களுக்கு கட்டம்-கட்டமாக அறிமுகம்
- Python இல் Faster R-CNN செயல்பாடு
குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையை பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. எங்கள் தரச்சிறப்பிற்காக முயற்சி செய்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளவும். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.











