CVPR 2020 | 针对VI-ReID的分层跨模态行人识别頭條網

CVPR 2020 | 针对VI-ReID的分层跨模态行人识别

2021-03-29 10:44:36 佚名

本文介绍的是CVPR2020入选论文《Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification》，论文作者来自韩国科学技术院。

作者 | 张景俊

编辑 | 丛末

通过对夜间视频的监控进行跨模态行人识别是当下ReID方向的一个的难点，目前已经受到学术界的广泛关注。

在此背景下，作者提出了一种分层跨模态行人识别（Hi-CMD）方法。为了实现该方法，作者引入了ID-preserving图像的生成网络和层次特征学习模块，通过这种网络结构可有效地解决行人在不同姿势和照明条件下进行ReID任务。

论文地址：
https://arxiv.org/pdf/1912.01230.pdf

1 任务概览

目前学术界实现ReID的方法很多，主要思想可概括为通过RGB-RGB匹配的人形外观，处理单模态相机捕获的图像。但是，需要注意的是，传统的可见光相机是无法在光线昏暗的条件下捕捉到人的所有外表特征。当遇到这种情况，大多数监控摄像机则会自动地从可见模式切换为红外模式，所以有必要针对VI-ReID（Visible-infrared personre-identification）进行研究。

图1（a）是作者针对VI-ReID任务，为解决跨模态行人在识别任务提出的一种新方法，简记为Hi-CMD。从图中可以看到，该方法从ID-discriminative和ID-excluded两个角度出发，作者采用的网络框架是ID-PIG网络，框架图如图1（b）所示。

2 框架结构

图2中X1代表的是visibleimage，X2代表的是 infrared image。对于每张待检测的图片，都对应着一个标签y， X1和X2两特征向量之间的距离作者采用了欧式距离进行计算。对于ID-PIG网络而言，它主要包含两阶段。

在第一阶段，作者设计了一个原型编码器和一个属性编码器,当i = 1时，对应的是visible images， i = 2时对应的是r infrared images。其中，原型编码器中的pi表示的是人物外形的向量，例如衣服的图案和身体的轮廓形状等，而属性编码器中的ai则代表的是在不同的姿势和照明的情况下，诸如衣服样式和外观形态等的向量。在图像的生成过程中，作者采用通过交换一对具有相同ID的两幅图像的ID-excluded来合成跨模态图像。其中图像交叉融合对应的损失函数为：

为了最大限度的提高generationquality，在此基础上，作者又分别添加了三个reconstruction损失，分别为same modality reconstruction loss、cycle reconstruction loss和code reconstruction loss，如图3所示。其中same modality reconstruction loss主要是为了解决正则化问题，cycle reconstruction loss主要针对于无监督图像转换问题，code reconstruction loss主要是为了重构 ID-excluded。最终的损失函数表达式如下所示：

上述过程即为ID-PIG网络的主要工作，通过该网络结构对图像进行的处理，将特征值输入到分层特征学习模型（HFL），完成对跨模态行人VI-ReID任务，如图2所示。

3 实验效果

实验是基于传统的VI-ReID数据集上进行实验的，分别为RegDB和SYSUMM01。其中RegDB数据集由2060张visible图像和具有206种类型的2060 张far-infrared图像作为训练集，它的测试集包含206种类型和2060张visible图像和2060张far-infrared图像。

SYSU数据集包含22,258张visible图像和具有395种类型的11,909张far-infrared图像作为训练集，它的测试集包括具有96种类型的3,803张near-infrared图像和301张visible图像。本文所有代码均是基于Pytorch框架在NVIDIA Titan Xp GPU环境下运行的，模型评估指标作者采用了两种业界主流的指标：CMC和mAP。作者采用了学习率为0.001的随机梯度，对于ID-PIG网络采用了学习率为0.0001的Adam优化器。