Deteção de Cabeças usando o Hollywood Heads Dataset

Trabalho prático do Currículo de IA para Iniciantes.

Tarefa

Contar o número de pessoas num fluxo de vídeo de uma câmara de vigilância é uma tarefa importante que nos permite estimar o número de visitantes em lojas, as horas de maior movimento num restaurante, etc. Para resolver esta tarefa, precisamos de ser capazes de detetar cabeças humanas a partir de diferentes ângulos. Para treinar um modelo de deteção de objetos para identificar cabeças humanas, podemos usar o Hollywood Heads Dataset.

O Conjunto de Dados

O Hollywood Heads Dataset contém 369.846 cabeças humanas anotadas em 224.740 frames de filmes de Hollywood. É fornecido no formato [https://host.robots.ox.ac.uk/pascal/VOC/](../../../../../../lessons/4-ComputerVision/11-ObjectDetection/lab/PASCAL VOC), onde para cada imagem existe também um ficheiro de descrição XML que se parece com isto:

<annotation>
	<folder>HollywoodHeads</folder>
	<filename>mov_021_149390.jpeg</filename>
	<source>
		<database>HollywoodHeads 2015 Database</database>
		<annotation>HollywoodHeads 2015</annotation>
		<image>WILLOW</image>
	</source>
	<size>
		<width>608</width>
		<height>320</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>201</xmin>
			<ymin>1</ymin>
			<xmax>480</xmax>
			<ymax>263</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>3</xmin>
			<ymin>4</ymin>
			<xmax>241</xmax>
			<ymax>285</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
</annotation>

Neste conjunto de dados, existe apenas uma classe de objetos, head, e para cada cabeça, obtém-se as coordenadas da caixa delimitadora. Pode-se analisar os ficheiros XML usando bibliotecas Python ou usar esta biblioteca para lidar diretamente com o formato PASCAL VOC.

Treinar a Deteção de Objetos

Pode treinar um modelo de deteção de objetos utilizando uma das seguintes abordagens:

Usar o Azure Custom Vision e a sua API Python para treinar programaticamente o modelo na cloud. O Custom Vision não consegue usar mais do que algumas centenas de imagens para treinar o modelo, por isso pode ser necessário limitar o conjunto de dados.
Usar o exemplo do tutorial do Keras para treinar o modelo RetunaNet.
Usar o módulo integrado torchvision.models.detection.RetinaNet no torchvision.

Conclusão

A deteção de objetos é uma tarefa frequentemente necessária na indústria. Embora existam alguns serviços que podem ser usados para realizar a deteção de objetos (como o Azure Custom Vision), é importante compreender como funciona a deteção de objetos e ser capaz de treinar os seus próprios modelos.

Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, tenha em atenção que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Deteção de Cabeças usando o Hollywood Heads Dataset

Tarefa

O Conjunto de Dados

Treinar a Deteção de Objetos

Conclusão

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Deteção de Cabeças usando o Hollywood Heads Dataset

Tarefa

O Conjunto de Dados

Treinar a Deteção de Objetos

Conclusão