跨模态图像-文本检索(Image-text Retrieval,ITR)是根据给定的用户在一种模态中的表达,从另一模态中检索出相关样本,通常包括两个子任务:图像-文本(i2t)和文本-图像(t2i)检索。ITR在搜索领域具有广泛的应用前景,是一个有价值的研究课题。由于语言和视觉的深度模型的繁荣,在过去的几年里见证了ITR的巨大成功。例如,伴随着BERT的兴起,基于transformer的跨模态预训练范式获得了发展,其预训练-微调的形式被扩展到下游的ITR任务中,加速了其发展。
一个ITR系统通常由图像/文本处理分支的特征提取过程和集成模块的特征对齐过程组成。在这样一个ITR系统的背景下,从四个角度构建分类法来概述ITR方法。
(1) 特征提取。现有的提取鲁棒性和鉴别性的图像和文本特征的方法分为三类。1)基于视觉语义嵌入的方法致力于独立学习特征。2)与此相反,交叉注意力方法是以交互方式学习特征。3)自适应方法旨在以自适应的模态学习特征。
(2)特征对齐。多模态数据的异质性使得整合模块对于图像和文本特征的对齐非常重要。现有的方法有两种变体。1)全局对齐驱动的方法在各模态间对齐全局特征。2)除此之外,一些方法试图在一个细粒度的层面上明确地找到局部对齐,即所谓的涉及局部对齐的方法。
(3) 系统效率。效率在一个优秀的ITR系统中起着至关重要的作用。除了关于提高ITR准确性的研究外,一系列的工作以三种不同的方式追求高效的检索系统。1)哈希编码方法通过对浮点格式的特征进行二进制化来降低计算成本。2)模型压缩方法强调低能耗和轻量级运行。3)先快后慢的方法通过先粗粒度的快速检索,再细粒度的慢速检索来进行检索。
(4) 预训练范式。为了站在研究发展的前沿,还对最近备受关注的ITR任务的跨模态预训练方法进行了深入研究。与传统的ITR相比,预训练的ITR方法可以从大规模跨模态预训练模型隐含的丰富知识中获益,即使没有复杂的检索工程,也能产生令人鼓舞的性能。在ITR任务的背景下,跨模态预训练方法仍然被应用于上述三个角度的分类法。然而,为了更清楚地描述预训练ITR方法的特点,从三个维度对它们进行重新分类:模型结构、预训练任务和预训练数据。