Skip to content

Latest commit

 

History

History
66 lines (53 loc) · 3.41 KB

File metadata and controls

66 lines (53 loc) · 3.41 KB

使用好莱坞头部数据集进行头部检测

来自 AI 初学者课程 的实验任务。

任务

通过视频监控摄像头流统计人数是一项重要任务,它可以帮助我们估算商店的访客数量、餐厅的繁忙时段等。为了解决这个任务,我们需要能够从不同角度检测人类的头部。为了训练一个能够检测人类头部的目标检测模型,我们可以使用 好莱坞头部数据集

数据集

好莱坞头部数据集 包含了 369,846 个标注的人类头部,分布在 224,740 帧好莱坞电影画面中。数据集采用 [https://host.robots.ox.ac.uk/pascal/VOC/](../../../../../../lessons/4-ComputerVision/11-ObjectDetection/lab/PASCAL VOC) 格式提供,每张图片都有一个对应的 XML 描述文件,格式如下:

<annotation>
	<folder>HollywoodHeads</folder>
	<filename>mov_021_149390.jpeg</filename>
	<source>
		<database>HollywoodHeads 2015 Database</database>
		<annotation>HollywoodHeads 2015</annotation>
		<image>WILLOW</image>
	</source>
	<size>
		<width>608</width>
		<height>320</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>201</xmin>
			<ymin>1</ymin>
			<xmax>480</xmax>
			<ymax>263</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>3</xmin>
			<ymin>4</ymin>
			<xmax>241</xmax>
			<ymax>285</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
</annotation>

在这个数据集中,只有一个类别的对象 head,对于每个头部,都会提供其边界框的坐标。你可以使用 Python 库解析 XML,或者使用 这个库 直接处理 PASCAL VOC 格式。

训练目标检测模型

你可以通过以下方式之一来训练目标检测模型:

收获

目标检测是工业中经常需要完成的任务。虽然有一些服务可以用来执行目标检测(例如 Azure Custom Vision),但理解目标检测的工作原理并能够训练自己的模型是非常重要的。

免责声明
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们对因使用此翻译而产生的任何误解或误读不承担责任。