VGG-16 2014-ൽ ImageNet ടോപ്പ്-5 ക്ലാസിഫിക്കേഷനിൽ 92.7% കൃത്യത നേടിയ ഒരു നെറ്റ്വർക്കാണ്. ഇതിന് താഴെ പറയുന്ന ലെയർ ഘടനയുണ്ട്:
നിങ്ങൾക്ക് കാണാമല്ലോ, VGG പരമ്പരാഗത പിരമിഡ് ആർക്കിടെക്ചർ പിന്തുടരുന്നു, convolution-pooling ലെയറുകളുടെ ഒരു ശ്രേണിയാണ് ഇത്.
ചിത്രം Researchgate നിന്നാണ്
ResNet മൈക്രോസോഫ്റ്റ് റിസർച്ച് 2015-ൽ നിർദ്ദേശിച്ച മോഡലുകളുടെ ഒരു കുടുംബമാണ്. ResNet-ന്റെ പ്രധാന ആശയം residual blocks ഉപയോഗിക്കുകയാണ്:
ചിത്രം ഈ പേപ്പർ നിന്നാണ്
ഐഡന്റിറ്റി പാസ്-ത്രൂ ഉപയോഗിക്കുന്നതിന്റെ കാരണം, ഒരു ലെയർ മുൻ ലെയറിന്റെ ഫലവും residual block-ന്റെ ഔട്ട്പുട്ടും തമ്മിലുള്ള വ്യത്യാസം പ്രവചിക്കാനാണ് - അതുകൊണ്ടാണ് residual എന്ന് പേരിട്ടിരിക്കുന്നത്. ആ ബ്ലോക്കുകൾ പരിശീലിപ്പിക്കാൻ വളരെ എളുപ്പമാണ്, കൂടാതെ നൂറുകണക്കിന് ബ്ലോക്കുകൾ ഉപയോഗിച്ച് നെറ്റ്വർക്ക് നിർമ്മിക്കാം (സാധാരണ വേർഷനുകൾ ResNet-52, ResNet-101, ResNet-152 എന്നിവയാണ്).
ഈ നെറ്റ്വർക്ക് dataset-നുസരിച്ച് അതിന്റെ സങ്കീർണ്ണത ക്രമീകരിക്കാൻ കഴിയും എന്നും നിങ്ങൾ കരുതാം. തുടക്കത്തിൽ, നെറ്റ്വർക്ക് പരിശീലനം ആരംഭിക്കുമ്പോൾ, വെയ്റ്റുകൾ ചെറുതായിരിക്കും, സിഗ്നലിന്റെ ഭൂരിഭാഗവും ഐഡന്റിറ്റി പാസ്-ത്രൂ ലെയറുകൾ വഴി പോകും. പരിശീലനം പുരോഗമിക്കുമ്പോൾ വെയ്റ്റുകൾ വലുതാകുകയും, നെറ്റ്വർക്ക് പാരാമീറ്ററുകളുടെ പ്രാധാന്യം വർദ്ധിക്കുകയും, ആവശ്യമായ പ്രകടന ശേഷി ലഭിക്കാൻ നെറ്റ്വർക്ക് ക്രമീകരിക്കപ്പെടുകയും ചെയ്യും.
Google Inception ആർക്കിടെക്ചർ ഈ ആശയം ഒരു പടി മുന്നോട്ട് കൊണ്ടുപോകുന്നു, ഓരോ നെറ്റ്വർക്ക് ലെയറും പല വ്യത്യസ്ത പാതകളുടെ സംയോജനം ആയി നിർമ്മിക്കുന്നു:
ചിത്രം Researchgate നിന്നാണ്
ഇവിടെ, 1x1 convolution-ന്റെ പങ്ക് പ്രത്യേകിച്ച് ശ്രദ്ധിക്കണം, കാരണം ആദ്യം അത് അർത്ഥമാക്കാൻ ബുദ്ധിമുട്ടാകും. 1x1 ഫിൽട്ടർ ഉപയോഗിച്ച് ഇമേജിലൂടെ പോകേണ്ടതെന്തിന്? എന്നാൽ convolution ഫിൽട്ടറുകൾ പല ഡെപ്ത് ചാനലുകളുമായി (ആദ്യത്തേത് RGB നിറങ്ങൾ, പിന്നീട് വിവിധ ഫിൽട്ടറുകൾക്കുള്ള ചാനലുകൾ) പ്രവർത്തിക്കുന്നുവെന്ന് ഓർക്കണം, 1x1 convolution ആ ഇൻപുട്ട് ചാനലുകൾ വ്യത്യസ്ത ട്രെയിനബിൾ വെയ്റ്റുകൾ ഉപയോഗിച്ച് മിശ്രിതമാക്കാൻ ഉപയോഗിക്കുന്നു. ഇത് ചാനൽ ഡൈമെൻഷനിൽ ഡൗൺസാമ്പ്ലിംഗ് (pooling) ആയി കാണാം.
ഈ വിഷയത്തിൽ ഒരു നല്ല ബ്ലോഗ് പോസ്റ്റ് ഉണ്ട്, കൂടാതെ അസൽ പേപ്പർ വായിക്കാം.
MobileNet മൊബൈൽ ഉപകരണങ്ങൾക്ക് അനുയോജ്യമായ, വലുപ്പം കുറച്ച മോഡലുകളുടെ ഒരു കുടുംബമാണ്. നിങ്ങൾക്ക് റിസോഴ്സുകൾ കുറവാണെങ്കിൽ, കുറച്ച് കൃത്യത ത്യജിക്കാമെങ്കിൽ ഇവ ഉപയോഗിക്കാം. ഇവയുടെ പ്രധാന ആശയം depthwise separable convolution ആണ്, spatial convolution-കളും 1x1 convolution-ഉം ഡെപ്ത് ചാനലുകളിൽ ചേർത്ത് convolution ഫിൽട്ടറുകൾ പ്രതിനിധാനം ചെയ്യാൻ ഇത് സഹായിക്കുന്നു. ഇതു പാരാമീറ്ററുകളുടെ എണ്ണം വളരെ കുറയ്ക്കുന്നു, നെറ്റ്വർക്ക് വലുപ്പം ചെറുതാക്കുകയും കുറവ് ഡാറ്റ ഉപയോഗിച്ച് പരിശീലിപ്പിക്കാൻ എളുപ്പമാക്കുകയും ചെയ്യുന്നു.
MobileNet-നെക്കുറിച്ച് ഒരു നല്ല ബ്ലോഗ് പോസ്റ്റ് ഇവിടെ കാണാം.
ഈ യൂണിറ്റിൽ, നിങ്ങൾ കമ്പ്യൂട്ടർ വിഷൻ ന്യൂറൽ നെറ്റ്വർക്കുകളുടെ പ്രധാന ആശയം - convolutional networks - പഠിച്ചു. ചിത്ര ക്ലാസിഫിക്കേഷൻ, ഒബ്ജക്റ്റ് ഡിറ്റക്ഷൻ, ചിത്ര സൃഷ്ടി നെറ്റ്വർക്കുകൾ എല്ലാം CNN-കളിൽ അടിസ്ഥാനമാക്കിയുള്ളവയാണ്, കൂടുതൽ ലെയറുകളും ചില അധിക പരിശീലന തന്ത്രങ്ങളും ചേർത്ത്.
സഹായക നോട്ട്ബുക്കുകളിൽ, കൂടുതൽ കൃത്യത നേടാനുള്ള കുറിപ്പുകൾ അടിക്കുറിപ്പായി നൽകിയിട്ടുണ്ട്. നിങ്ങൾക്ക് കൂടുതൽ കൃത്യത നേടാൻ കഴിയുന്നുണ്ടോ എന്ന് പരീക്ഷണങ്ങൾ നടത്തുക.
CNN-കൾ സാധാരണയായി കമ്പ്യൂട്ടർ വിഷൻ ടാസ്കുകൾക്കാണ് ഉപയോഗിക്കുന്നത്, എന്നാൽ അവ സ്ഥിരമായ വലിപ്പത്തിലുള്ള പാറ്റേണുകൾ കണ്ടെത്താൻ പൊതുവെ നല്ലതാണ്. ഉദാഹരണത്തിന്, ശബ്ദവുമായി ബന്ധപ്പെട്ട്, ഓഡിയോ സിഗ്നലിൽ ചില പ്രത്യേക പാറ്റേണുകൾ കണ്ടെത്താൻ CNN-കൾ ഉപയോഗിക്കാം - അപ്പോൾ ഫിൽട്ടറുകൾ 1-ഡൈമെൻഷണൽ ആയിരിക്കും (ഇത്തരം CNN-നെ 1D-CNN എന്ന് വിളിക്കും). കൂടാതെ, ചിലപ്പോൾ 3D-CNN ഉപയോഗിച്ച് മൾട്ടി-ഡൈമെൻഷണൽ സ്പേസിൽ ഫീച്ചറുകൾ എടുക്കുന്നു, ഉദാഹരണത്തിന് വീഡിയോയിൽ സംഭവിക്കുന്ന ചില സംഭവങ്ങൾ - CNN സമയം അനുസരിച്ച് ഫീച്ചറുകളുടെ മാറ്റം പാറ്റേണുകൾ പിടികൂടാൻ കഴിയും. CNN-കൾ ഉപയോഗിച്ച് ചെയ്യാവുന്ന മറ്റ് ടാസ്കുകൾക്കായി അവലോകനം ചെയ്ത് സ്വയം പഠനം നടത്തുക.
ഈ ലാബിൽ, നിങ്ങൾക്ക് വ്യത്യസ്ത പൂച്ചയും നായയും ഇനങ്ങൾ ക്ലാസിഫൈ ചെയ്യേണ്ടതാണ്. ഈ ചിത്രങ്ങൾ MNIST ഡാറ്റാസെറ്റിനേക്കാൾ കൂടുതൽ സങ്കീർണ്ണവും ഉയർന്ന ഡൈമെൻഷനുകളുള്ളതും ആണ്, കൂടാതെ 10-ലധികം ക്ലാസുകൾ ഉണ്ട്.
അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖ അധികാരപരമായ ഉറവിടമായി കണക്കാക്കണം. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനത്തിന്റെ ഉപയോഗത്തിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.



