使用好莱坞头部数据集进行头部检测

任务

通过视频监控摄像头流统计人数是一项重要任务，它可以帮助我们估算商店的访客数量、餐厅的繁忙时段等。为了解决这个任务，我们需要能够从不同角度检测人类的头部。为了训练一个能够检测人类头部的目标检测模型，我们可以使用好莱坞头部数据集。

数据集

好莱坞头部数据集包含了 369,846 个标注的人类头部，分布在 224,740 帧好莱坞电影画面中。数据集采用 [https://host.robots.ox.ac.uk/pascal/VOC/](../../../../../../lessons/4-ComputerVision/11-ObjectDetection/lab/PASCAL VOC) 格式提供，每张图片都有一个对应的 XML 描述文件，格式如下：

<annotation>
	<folder>HollywoodHeads</folder>
	<filename>mov_021_149390.jpeg</filename>
	<source>
		<database>HollywoodHeads 2015 Database</database>
		<annotation>HollywoodHeads 2015</annotation>
		<image>WILLOW</image>
	</source>
	<size>
		<width>608</width>
		<height>320</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>201</xmin>
			<ymin>1</ymin>
			<xmax>480</xmax>
			<ymax>263</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>3</xmin>
			<ymin>4</ymin>
			<xmax>241</xmax>
			<ymax>285</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
</annotation>

在这个数据集中，只有一个类别的对象 head，对于每个头部，都会提供其边界框的坐标。你可以使用 Python 库解析 XML，或者使用这个库直接处理 PASCAL VOC 格式。

训练目标检测模型

你可以通过以下方式之一来训练目标检测模型：

使用 Azure Custom Vision 及其 Python API，在云端以编程方式训练模型。Custom Vision 只能使用几百张图片进行模型训练，因此可能需要限制数据集的规模。
使用 Keras 教程中的示例来训练 RetunaNet 模型。
使用 torchvision.models.detection.RetinaNet 中的内置模块进行训练。

收获

目标检测是工业中经常需要完成的任务。虽然有一些服务可以用来执行目标检测（例如 Azure Custom Vision），但理解目标检测的工作原理并能够训练自己的模型是非常重要的。

免责声明：
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保翻译的准确性，但请注意，自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息，建议使用专业人工翻译。我们对因使用此翻译而产生的任何误解或误读不承担责任。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用好莱坞头部数据集进行头部检测

任务

数据集

训练目标检测模型

收获

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

使用好莱坞头部数据集进行头部检测

任务

数据集

训练目标检测模型

收获