行人重识别的任务是在跨非重叠多摄像机情况下的跨时间、跨空间场景下非连续帧的特定行人检索问题,即对同一个人在不同摄像机或同一摄像机不同时间段中的图像建立相关性的过程。人脸识别和虹膜识别等生物独特特征识别可以确定两个实例是否为同一身份。不幸的是,人脸识别和虹膜识别往往需要高分辨率的图像和精确的轮廓分割,而监控系统通常使用低分辨率和低帧率,通常无法获得这些详细信息。视频数据中最容易获得的实例描述就是外貌,其包括形状、颜色和纹理等特征。纹理和颜色特征可能因为交叉视角变化、姿态变化和跨摄像头内部设置中尺度变化而发生改变;人体关节的铰接性也会带来行人轮廓的变形,不同的摄像头的形状参数也会使行人形状特征的区别性降低。因此,如何通过行人外观信息建模进行行人重识别具有很大的挑战。
早起手工制作的行人重识别方法不够准确,迅速被基于深度学习的重识别方法替代。
2014年,Krizhevsky等人研究的AlexNet横空出世,由于深度卷积网络强大的特征学习和细粒度挖掘能力,其往往能学习到具有更好的鉴别性和鲁棒性的特征表征,将行人重识别性能推向了新的高峰。近年来,基于卷积神经网络的深度学习迅速主导了重识别领域,在高识别率和平均精度方面取得了突破性成果。
行人重识别主要包括全局特征表征学习和局部特征表征学习。
由于早期深度神经网络针对的任务是图像分类,因此从图像整体获得具有鉴别性的全局行人表征是最直观的方法。全局特征表征学习的往往能捕捉到较为显著的外观特征,但一些不频繁的细节线索信息常常会被忽略。学习局部特征能够捕获更为细粒的特征,并可以对全局特征表征进行重要补充。