Hodedeteksjon ved bruk av Hollywood Heads Dataset

Laboppgave fra AI for Beginners Curriculum.

Oppgave

Å telle antall personer på videostrøm fra overvåkningskamera er en viktig oppgave som lar oss estimere antall besøkende i butikker, travle timer på en restaurant, osv. For å løse denne oppgaven må vi kunne oppdage menneskehoder fra ulike vinkler. For å trene en objektgjenkjenningsmodell til å oppdage menneskehoder, kan vi bruke Hollywood Heads Dataset.

Datasettet

Hollywood Heads Dataset inneholder 369,846 menneskehoder annotert i 224,740 filmrammer fra Hollywood-filmer. Det er levert i [https://host.robots.ox.ac.uk/pascal/VOC/](../../../../../../lessons/4-ComputerVision/11-ObjectDetection/lab/PASCAL VOC)-format, hvor det for hvert bilde også finnes en XML-beskrivelsesfil som ser slik ut:

<annotation>
	<folder>HollywoodHeads</folder>
	<filename>mov_021_149390.jpeg</filename>
	<source>
		<database>HollywoodHeads 2015 Database</database>
		<annotation>HollywoodHeads 2015</annotation>
		<image>WILLOW</image>
	</source>
	<size>
		<width>608</width>
		<height>320</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>201</xmin>
			<ymin>1</ymin>
			<xmax>480</xmax>
			<ymax>263</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>3</xmin>
			<ymin>4</ymin>
			<xmax>241</xmax>
			<ymax>285</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
</annotation>

I dette datasettet er det kun én klasse av objekter, head, og for hvert hode får du koordinatene til avgrensningsboksen. Du kan analysere XML ved hjelp av Python-biblioteker, eller bruke dette biblioteket for å jobbe direkte med PASCAL VOC-formatet.

Trening av objektgjenkjenning

Du kan trene en objektgjenkjenningsmodell ved hjelp av en av følgende metoder:

Bruke Azure Custom Vision og dens Python-API for å programmere treningen av modellen i skyen. Custom Vision vil ikke kunne bruke mer enn noen få hundre bilder til å trene modellen, så du må kanskje begrense datasettet.
Bruke eksempelet fra Keras tutorial for å trene RetunaNet-modellen.
Bruke torchvision.models.detection.RetinaNet, en innebygd modul i torchvision.

Lærdom

Objektgjenkjenning er en oppgave som ofte er nødvendig i industrien. Selv om det finnes tjenester som kan brukes til å utføre objektgjenkjenning (som Azure Custom Vision), er det viktig å forstå hvordan objektgjenkjenning fungerer og å kunne trene dine egne modeller.

Ansvarsfraskrivelse:
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten Co-op Translator. Selv om vi streber etter nøyaktighet, vær oppmerksom på at automatiserte oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hodedeteksjon ved bruk av Hollywood Heads Dataset

Oppgave

Datasettet

Trening av objektgjenkjenning

Lærdom

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Hodedeteksjon ved bruk av Hollywood Heads Dataset

Oppgave

Datasettet

Trening av objektgjenkjenning

Lærdom