VGG-16 एक नेटवर्क हो जसले २०१४ मा ImageNet टप-५ वर्गीकरणमा ९२.७% शुद्धता प्राप्त गर्यो। यसको लेयर संरचना निम्नानुसार छ:
जस्तो कि तपाईं देख्न सक्नुहुन्छ, VGG ले परम्परागत पिरामिड आर्किटेक्चर अनुसरण गर्दछ, जुन कनभोल्युसन-पूलिङ लेयरहरूको क्रम हो।
Researchgate बाट छवि
ResNet माइक्रोसफ्ट रिसर्चद्वारा २०१५ मा प्रस्ताव गरिएको मोडेलहरूको परिवार हो। ResNet को मुख्य विचार residual blocks प्रयोग गर्नु हो:
यस पेपर बाट छवि
Identity पास-थ्रु प्रयोग गर्ने कारण भनेको हाम्रो लेयरले अन्तर भविष्यवाणी गर्नु हो जुन अघिल्लो लेयरको नतिजा र residual block को आउटपुट बीचको हो - त्यसैले यसलाई residual नाम दिइएको हो। यी ब्लकहरू प्रशिक्षण गर्न धेरै सजिलो हुन्छन्, र सयौं ब्लकहरू प्रयोग गरेर नेटवर्क निर्माण गर्न सकिन्छ (सबैभन्दा सामान्य भेरियन्टहरू ResNet-52, ResNet-101 र ResNet-152 हुन्)।
तपाईं यस नेटवर्कलाई डेटासेटको जटिलता अनुसार समायोजन गर्न सक्ने नेटवर्कको रूपमा पनि सोच्न सक्नुहुन्छ। सुरुमा, जब तपाईं नेटवर्क प्रशिक्षण गर्न सुरु गर्नुहुन्छ, तौलको मान सानो हुन्छ, र अधिकांश संकेत पास-थ्रु identity लेयरहरूबाट जान्छ। प्रशिक्षणको क्रममा तौलहरू ठूलो हुँदै जान्छन्, र नेटवर्कको प्यारामिटरहरूको महत्त्व बढ्छ, जसले प्रशिक्षण छविहरूलाई सही रूपमा वर्गीकरण गर्न आवश्यक अभिव्यक्तिको शक्ति समायोजन गर्दछ।
Google Inception आर्किटेक्चरले यस विचारलाई अझ अगाडि बढाउँछ, र प्रत्येक नेटवर्क लेयरलाई विभिन्न पथहरूको संयोजनको रूपमा निर्माण गर्दछ:
Researchgate बाट छवि
यहाँ, १x१ कनभोल्युसनहरूको भूमिकालाई जोड दिन आवश्यक छ, किनकि सुरुमा तिनीहरूले अर्थपूर्ण देखिँदैनन्। किन हामीले छविमा १x१ फिल्टर चलाउन आवश्यक छ? तर, तपाईंले सम्झनु पर्छ कि कनभोल्युसन फिल्टरहरू धेरै गहिराइ च्यानलहरूसँग काम गर्छन् (सुरुमा - RGB रंगहरू, त्यसपछि विभिन्न फिल्टरहरूको च्यानलहरू), र १x१ कनभोल्युसन विभिन्न ट्रेन योग्य तौलहरू प्रयोग गरेर ती इनपुट च्यानलहरूलाई मिसाउन प्रयोग गरिन्छ। यसलाई च्यानल आयाममा डाउनस्याम्पलिङ (पूलिङ) को रूपमा पनि हेर्न सकिन्छ।
यस विषयमा एक राम्रो ब्लग पोस्ट र मूल पेपर उपलब्ध छ।
MobileNet सानो आकारका मोडेलहरूको परिवार हो, जुन मोबाइल उपकरणहरूको लागि उपयुक्त छ। यदि तपाईं स्रोतहरूमा कमी हुनुहुन्छ र थोरै शुद्धता त्याग गर्न सक्नुहुन्छ भने तिनीहरू प्रयोग गर्नुहोस्। यसको मुख्य विचार depthwise separable convolution हो, जसले कनभोल्युसन फिल्टरहरूलाई स्थानिक कनभोल्युसन र गहिराइ च्यानलहरूमा १x१ कनभोल्युसनको संरचना द्वारा प्रतिनिधित्व गर्न अनुमति दिन्छ। यसले प्यारामिटरहरूको संख्या उल्लेखनीय रूपमा घटाउँछ, नेटवर्कलाई सानो आकारको बनाउँछ, र कम डाटासँग प्रशिक्षण गर्न सजिलो बनाउँछ।
MobileNet सम्बन्धी एक राम्रो ब्लग पोस्ट यहाँ उपलब्ध छ।
यस इकाईमा, तपाईंले कम्प्युटर भिजन न्यूरल नेटवर्कहरूको मुख्य अवधारणा - कनभोल्युसनल नेटवर्कहरू सिक्नुभएको छ। छवि वर्गीकरण, वस्तु पहिचान, र छवि निर्माण नेटवर्कहरूलाई शक्ति प्रदान गर्ने वास्तविक जीवनका आर्किटेक्चरहरू सबै CNN मा आधारित छन्, केवल थप लेयरहरू र केही अतिरिक्त प्रशिक्षण तरिकाहरूको साथ।
संग्लग्न नोटबुकहरूमा, उच्च शुद्धता प्राप्त गर्ने तरिकाहरूको बारेमा तल नोटहरू छन्। केही प्रयोगहरू गर्नुहोस् र उच्च शुद्धता प्राप्त गर्न सक्नुहुन्छ कि हेर्नुहोस्।
CNN प्राय: कम्प्युटर भिजन कार्यहरूको लागि प्रयोग गरिन्छ, तर तिनीहरू निश्चित आकारका ढाँचाहरू निकाल्न सामान्यत: राम्रो हुन्छन्। उदाहरणका लागि, यदि हामी ध्वनिहरूसँग व्यवहार गरिरहेका छौं भने, हामीले अडियो संकेतमा केही विशिष्ट ढाँचाहरू खोज्न CNN प्रयोग गर्न चाहन सक्छौं - जसमा फिल्टरहरू १-डायमेन्सनल हुनेछन् (र यस CNN लाई 1D-CNN भनिन्छ)। साथै, कहिलेकाहीं 3D-CNN बहु-आयामिक स्थानमा सुविधाहरू निकाल्न प्रयोग गरिन्छ, जस्तै भिडियोमा हुने निश्चित घटनाहरू - CNN ले समयको साथ परिवर्तन हुने सुविधाहरूको निश्चित ढाँचाहरू समात्न सक्छ। CNN द्वारा गर्न सकिने अन्य कार्यहरूको बारेमा समीक्षा र आत्म-अध्ययन गर्नुहोस्।
यस प्रयोगशालामा, तपाईंलाई विभिन्न बिरालो र कुकुरको प्रजातिहरू वर्गीकरण गर्न जिम्मा दिइएको छ। यी छविहरू MNIST डेटासेटभन्दा जटिल छन् र उच्च आयामका छन्, र १० भन्दा बढी वर्गहरू छन्।



