行人重识别简介（一）-天翼云开发者社区

2011年播出的高分美国电视剧“Penson of Interest”讲述了一个残疾编程天才通过发明一套算法，并利用算法从城市监控摄像头网络中识别筛选可能进行犯罪的人员，从而与另一位特工阻止了多起可能发生的恶性犯罪事件的故事。现实生活中，多摄像头视频监控是一个涉及计算机视觉、模式识别、通信、嵌入式计算存储和图像传感器的多学科研究领域。智能分析监控视频数据也一直是计算机领域备受关注的领域之一。

随着近年来图像传感器、处理器和存储设备的快速发展，视频采集和存储设备成本不断下降，同时基于公共安全保障的期望和需求不断上升，越来越多的监控摄像机在许多公共场所和私人场所都进行了部署，构建起了大型的安全保障监控网络。视频监控的在各个领域的应用前景是非常广泛的。司法执法部门可以通过监控高风险可疑人员和搜索目标人员，进行国土安全保障、失踪人员搜寻、犯罪预防以及事故预测和检测；交通运输部门可以了解监管环境中人员的长期行为和移动情况，从而能够进行更高效的交通管理和流量控制；幼儿园和养老院可以分析儿童和老人的行为与环境情况，从而提供更好的安全和服务保障；零售公司和超市可以通过分析客户行为来预测客户喜好和轨迹，从而改善客户服务以及为购物空间优化提供建议。如今，每个城市里都有大量的视频监控设备，其每天都在收集大量的图像视频数据。

单摄像机的视场是有限的，其视野往往受所在场景的结构限制。多摄像机的视频流是广阔区域监控的基础。为了使这些摄像机覆盖尽量大的地理空间区域，在全力保障安全防控的同时，各个摄像机之间通常也存在不重叠的视觉空间。大型的安全保障监控网络提供了海量的视频安防数据，这些数据通常由政府执法人员或者经政府许可的安防公司进行保管。由于视频数据是海量的，只由人工进行视频数据监控往往是低效且成本昂贵的，这也大大地降低了监控的实用性和有效性。通常，安全人员管控的摄像机数量往往远超过他们能够承担的数量；调查人员对视频进行司法分析也存在各种困难，如注意力有限导致错过目标事件或人物、缺乏背景知识对目标搜索进行指导、数据过载以及无法利用非视觉领域知识进行辅助检索等。通过计算机视觉算法对大量的视频数据进行理解分析的需求是非常迫切的，算法在更快地处理视频数据的同时，也显著提高了视频监控的质量和实用性。计算机视觉算法分析可以对人员在场景中的长期活动和行为进行充分描述和预测，这往往是高级安防监控任务所必需的。当算法检测出可疑行动和不良事件时，可以对安防人员及时发出提醒，使得监控行为更加主动。

跨多摄像机跟踪行人是广域场景分析的关键，而行人重识别正是跨多摄像机跟踪行人的关键。如图1-1所示，行人重识别（Person Re-Identification）指的是对同一个人在不同摄像机或同一摄像机不同时间段中的图像建立相关性的过程。人脸识别和虹膜识别等生物独特特征识别可以确定两个实例是否为同一身份。不幸的是，人脸识别和虹膜识别往往需要高分辨率的图像和精确的轮廓分割，而监控系统通常使用低分辨率和低帧率，通常无法获得这些详细信息。因此，如何通过行人全局信息建模进行行人重识别具有很大的挑战。

图1-1 行人重识别的目标

在行人重识别任务中，视频数据中最容易获得的实例描述就是外貌，其包括形状、颜色和纹理等特征。如图1-2所示，纹理和颜色特征可能因为交叉视角变化、姿态变化和跨摄像头内部设置中尺度变化而发生改变；人体关节的铰接性也会带来行人轮廓的变形，不同的摄像头的形状参数也会使行人形状特征的区别性降低。2014年，Krizhevsky等人研究的AlexNet横空出世，从此为深度卷积神经网络在计算机视觉领域的应用拉开序幕。深度神经网络在图像分类、图像检索、语义分割和实例分割等领域已经取得了显著的成就。深度神经网络对图像分类的强大能力非常适合处理行人重识别任务。

图1-2 不同摄像头下行人外貌的显著变化

图1-1 行人重识别的目标

图1-2 不同摄像头下行人外貌的显著变化

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

行人重识别简介（一）

行人重识别简介（一）