YOLO-World论文调研 -天翼云开发者社区

1.Abstract：

YOLO系列对预定义和训练过的对象类别的依赖限制了它们在开放场景中的适用性。针对这一限制，作者引入了YOLO-World，这是一种创新方法，通过视觉语言建模和在大型数据集上的预训练，将YOLO与开集检测能力相结合。具体来说，作者提出了一种新的可重参化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。

YOLO-World在以零样本方式检测广泛范围的物体时表现出色，且效率高。在具有挑战性的LVIS数据集上，YOLO-World在V100上实现了35.4 AP和52.0 FPS，在准确性和速度上都超过了许多最先进的方法。此外，经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。

2.Introduction：

近期工作探讨了普遍的视觉-语言模型，以解决开集检测问题，通过从语言编码器中提炼词汇知识，例如BERT。然而，这些基于蒸馏的方法受到很大限制，因为训练数据的稀缺性导致词汇多样性有限，例如OV-COCO仅包含48个基本类别。几种方法将目标检测训练重新定义为区域 Level的视觉-语言预训练，并在大规模上训练开集目标检测器。然而，这些方法在现实场景中的检测仍然存在困难，主要受两方面影响：

● 计算负担重；

● 边缘设备部署复杂。

以前的工作已经证明了预训练大型检测器的性能潜力，而预训练小型检测器以赋予它们开放识别能力尚未被探索。

作者提出了YOLO-World，旨在实现高效的开集目标检测，并探索大规模预训练方案，以将传统的YOLO检测器提升到一个新的开集世界。与先前方法相比，所提出的YOLO-World在具有高推理速度方面显著高效，易于部署到下游应用中。具体而言，YOLO-World遵循标准的YOLO架构，并利用预训练的CLIP文本编码器来编码输入文本。作者进一步提出了可重参化的视觉-语言路径聚合网络（RepVL-PAN），以更好地连接文本特征和图像特征，实现视觉语义表示。

在推理过程中，可以移除文本编码器，并将文本嵌入重新参数化为RepVL-PAN的权重，以实现高效部署。作者进一步研究了对YOLO检测器的大规模开集预训练方案，通过在大型数据集上对区域文本进行对比学习，将检测数据、定位数据以及图像文本数据统一为区域文本对。预训练的YOLO-World拥有丰富的区域文本对，展示了在大词汇检测方面的强大能力，且更多的数据训练将带来开集能力的更大提升。

此外，作者探索了一种“提示后检测”范式，以进一步改进实际场景中开集目标检测的效率。如图2所示，传统的目标检测器专注于固定词汇（闭集）的检测，这些词汇是预定义且经过训练的类别。而之前的开集检测器则使用文本编码器对用户提示进行编码，以实现在线词汇的检测目标。值得注意的是，这些方法往往采用带有重型 Backbone 网络的大型检测器，例如Swin-L，以增加开集的容量。

相比之下，“提示后检测”范式（上图2（c））首先对用户的提示进行编码以构建离线词汇，该词汇根据不同的需求而变化。然后，高效的检测器可以在不重新编码提示的情况下即时推理离线词汇。对于实际应用，一旦作者训练了检测器（YOLO-World），作者可以预先编码提示或类别以构建离线词汇，然后无缝地将其整合到检测器中。

主要贡献可以概括为三个方面：

(1) 作者介绍了YOLO-World，是一个前沿的开集目标检测器，它具有高效率，适用于实际应用场景。

(2) 作者提出了一个可重新参数化的视觉-语言PAN模型，用以连接视觉和语言特征，并针对YOLO-World设计了一套开集区域文本对比预训练方案。

(3) YOLO-World在大规模数据集上的预训练展示了强大的零样本性能，在LVIS上达到35.4 AP的同时，还能保持52.0 FPS的速度。预训练的YOLO-World可以轻松适应下游任务，例如，开集实例分割和指代目标检测。YOLO-World的预训练权重和代码将开源，以促进更多实际应用。

3.YOLO-World：

3.1 Pre-training Formulation: Region-Text Pairs：

3.2 YOLO-World结构：

所提出的YOLO-World的整体架构如图3所示，它包括一个YOLO检测器、一个文本编码器以及一个可重参化的视觉-语言路径聚合网络（RepVL-PAN）。在给定输入文本的情况下，YOLO-World中的文本编码器将文本编码为文本嵌入。YOLO检测器中的图像编码器从输入图像中提取多尺度特征。然后作者利用RepVL-PAN通过利用图像特征与文本嵌入之间的跨模态融合来增强文本和图像的表现。

● YOLO检测器：YOLO-World主要是基于YOLOv8开发的，其中包含一个Darknet backbone作为图像编码器，一个用于多尺度特征金字塔的路径聚合网络（PAN），以及一个用于边界框回归和对象嵌入的head。

● 文本编码器：给定文本T，作者采用由CLIP预训练的Transformer文本编码器来提取相应的文本嵌入。

● 文本对比头：

● 使用在线词汇训练：在训练过程中，为每个包含4张图像的马赛克样本构建一个在线词汇表T。具体来说，从马赛克图像中抽取所有涉及的积极名词，并从相应的数据集中随机抽取一些消极名词。每个马赛克样本的词汇表最多包含M个名词，默认为M被设置为80。

● 使用离线词汇推理：作者提出了一种以“提示后检测”的策略，使用离线词汇以进一步提高效率。如图3所示，用户可以定义一系列自定义提示，这些提示可能包括描述或类别。然后作者使用文本编码器编码这些提示并获得离线词汇嵌入。离线词汇使作者可以避免对每个输入进行计算，并提供根据需要调整词汇的灵活性。

3.3 Re-parameterizable Vision-Language PAN:

图4展示了所提出的RepVL-PAN的结构，该结构遵循PAN中的自顶向下和自底向上的路径，建立具有多尺度图像特征{C3、C4、C5}的特征金字塔{P3、P4、P5}。此外，作者提出了文本引导的CSPLayer（T-CSPLayer）和图像池化注意力（I-Pooling Attention），以进一步增强图像特征与文本特征之间的交互，这可以提高开集能力的视觉语义表示。在推理过程中，离线词汇嵌入可以重新参数化为卷积层或线性层的权重以进行部署。

(备注：Multi-Head Cross- Attention (MHCA)，滤除无关信息，highlight对结果重要的特征。)

● 文本引导的CSPLayer：如图4所示，在自顶向下或自底向上融合后，利用跨阶段部分层（CSPLayer）。作者通过将文本引导结合到多尺度图像特征中，扩展了YOLOv8中的CSPLayer（也称为C2f），形成文本引导的CSPLayer。

● 图像池化注意力：为了用图像感知信息增强文本嵌入，作者提出了图像池化注意力，通过聚合图像特征来更新文本嵌入。不是直接在图像特征上使用交叉注意力，作者利用多尺度特征上的最大池化来获得的区域，总共得到27个块标记。然后通过以下方式更新文本嵌入：

3.4 Pre-training Schemes：

本节作者介绍了在大规模检测、定位以及图像-文本数据集上对YOLO-World进行预训练的训练方案。

● 从区域文本对比损失中学习：给定马赛克样本I和文本T，YOLO-World输出K个目标预测以及标注。作者利用任务对齐的标签分配将预测与 GT 标注匹配，并为每个积极的预测分配一个文本索引作为分类标签。基于这个词汇表，作者构建了区域文本对比损失，通过目标文本（区域文本）相似性与目标文本分配之间的交叉熵来处理区域文本对。此外，作者采用IoU损失和分布式Focal Loss进行边界框回归。考虑到图像文本数据集有噪声框，作者只对具有准确边界框的样本计算回归损失。

● 基于图像-文本数据的伪标签方法：作者并不是直接使用图像-文本对进行预训练，而是提出了一种自动标注方法来生成区域-文本对。具体来说，这种标注方法包含三个步骤：

1) 提取名词短语：首先使用n-gram算法从文本中提取名词短语；

2) 伪标签：采用一个预训练的开集检测器，例如GLIP，为每张图像给定名词短语的生成伪边界框，从而提供粗糙的区域-文本对；

3) 过滤：使用预训练CLIP评估图像-文本对和区域-文本对的相关性，并过滤掉低相关性的伪标注和图像。作者进一步通过结合非极大值抑制（NMS）等方法来过滤冗余的边界框。

4.实验结果：

作者通过在大规模数据集上对所提出的YOLO-World进行预训练，展示了其有效性，并以零样本方式在LVIS基准和COCO基准上评估了YOLO-World，还评估了YOLO-World在COCO、LVIS数据集上进行目标检测的微调性能。

YOLO-World是基于MMYOLO工具箱和MMDetection工具箱开发的。作者为不同的延迟需求提供了YOLO-World的三个变体，例如小型（S）、中型（M）和大型（L）。作者采用了开源CLIP文本编码器及其预训练权重来编码输入文本。除非特别指明，作者将所有模型的推理速度测量在单个NVIDIA V100 GPU上，且不使用额外的加速机制（例如FP16或TensorRT）。

4.1 预训练：

● 实验设置：在预训练阶段，作者采用了AdamW优化器，初始学习率为0.002，权重衰减为0.05。YOLO-World在32个NVIDIA V100 GPU上以总批处理大小512进行预训练，共100个周期。在预训练期间，作者遵循之前的工作，采用了颜色增强、随机仿射变换、随机翻转以及包含4张图片的马赛克数据进行数据增强。在预训练期间，文本编码器被冻结。

● 预训练数据：为了预训练YOLO-World，作者主要采用了包括Objects365 (V1) ，GQA ，Flickr30k在内的检测或定位数据集，如表1所示。作者排除了GoldG（GQA和Flickr30k）中来自COCO数据集的图像。用于预训练的检测数据集的标注包括边界框和类别或名词短语。此外，作者还通过图像-文本对扩展了预训练数据，即CC3M，作者通过伪标注方法对其中的246k图像进行了标注。

● 零样本评估：在预训练之后，作者直接以零样本的方式在LVIS数据集上评估YOLO-World。LVIS数据集包含1203个目标类别，这比预训练检测数据集的类别多得多，可以衡量在大词汇检测上的性能。作者主要在LVIS minival上进行评估，并报告了用于比较的Fixed AP。预测的最大数量设置为1000。

● LVIS目标检测的主要结果：在表2中，作者以零样本的方式将YOLO-World与最近的最先进方法在LVIS基准上进行比较。考虑到计算负担和模型参数，作者主要与基于较轻量级 Backbone 的方法进行比较，例如Swin-T。YOLO-World在零样本性能和推理速度方面都超过了之前的最先进方法。与包含了更多数据的方法相比，如GLIP、GLIPv2和Grounding DINO（如Cap4M（CC3M+SBU）），仅用O365 & GolG进行预训练的YOLO-World即使模型参数较少，也获得了更好的性能。与DetCLIP相比，YOLO-World在获得推理速度提升的同时，取得了可比较的性能（35.4 对比 34.4）。实验结果还表明，小型模型可用于视觉-语言预训练，并获得强大的开集能力（如：有13M参数的YOLO-World-S）。

4.2 消融实验：

作者提供了广泛的消融研究，从两个方面分析YOLO-World，即预训练和架构。除非另有指定，作者主要基于YOLO-World-L进行消融实验，并使用零样本评估在LVIS minival上预训练Objects365。

● 预训练数据：在表3中，作者评估了使用不同数据预训练YOLO-World的性能。与在Objects365上训练的 Baseline 相比，加入GQA可以在LVIS上显著提高性能，AP增益达到8.4。这种改进可以归因于GQA数据集提供的更丰富的文本信息，这可以增强模型识别大词汇目标的能力。加入部分CC3M样本（完整数据集的8%）可以进一步带来0.5 AP的增益，罕见目标上提升1.3 AP。表3显示，添加更多数据可以有效提高在大词汇场景下的检测能力。此外，随着数据量的增加，性能持续提升，凸显了利用更大、更多样化的数据集进行训练的好处。

● RepVL-PAN的消融研究：表4展示了YOLO-World中的RepVL-PAN对于零样本LVIS检测的有效性，包括文本引导的CSPLayers和图像池化注意力。具体来说，作者采用了两种设置，即：（1）在O365上预训练；（2）在O365和GQA上预训练。与只包含类别标注的O365相比，GQA包含了丰富的文本信息，尤其是名词短语的形式。如表4所示，所提出的RepVL-PAN在LVIS上比 Baseline （YOLOv8-PAN）提高了1.1个AP，并且在LVIS中难以检测和识别的稀有类别（AP）方面改进显著。此外，当YOLO-World使用GQA数据集进行预训练时，改进变得更加显著，实验表明，所提出的RepVL-PAN在丰富的文本信息下效果更佳。

● 文本编码器：在表5中，作者比较了使用不同文本编码器的性能，即BERT基础版和CLIP基础版。在预训练过程中，作者采用了两种设置，即冻结和微调，微调文本编码器的学习率是基本学习率的0.01倍数。如表5所示，CLIP文本编码器比BERT获得了更好的结果（在LVIS中罕见类别的AP提高了10.1），这是用图像-文本对进行预训练的，具有更强的以视觉为中心的嵌入能力。在预训练过程中微调BERT带来了显著的提升（+3.7 AP），而微调CLIP则导致性能严重下降。作者将下降归因于在O365上进行微调可能会降低预训练CLIP的泛化能力，因为O365只包含365个类别，并且缺乏丰富的文本信息。

4.3 微调实验：

作者进一步对YOLO-World进行微调，以在COCO数据集和LVIS数据集上进行闭集目标检测，以展示预训练的有效性。

● 实验设置：作者使用预训练权重来初始化YOLO-World以进行微调。所有模型都使用AdamW优化器，微调80个周期，初始学习率设置为0.0002。此外，作者还以0.01的学习因子微调CLIP文本编码器。对于LVIS数据集，作者遵循之前的工作，在LVIS-base（常见和频繁）上微调YOLO-World，并在LVIS-novel（罕见）上进行评估。

● COCO目标检测：表6比较了预训练的YOLO-World与先前的YOLO检测器。将YOLO-World在COCO数据集上进行微调时，考虑到COCO数据集的词汇量较小，作者移除了RepVL-PAN以进一步加速。在表6中，很明显作者的方法在COCO数据集上可以取得相当不错的零样本性能，这表明YOLO-World具有很强的泛化能力。与从头开始训练的先前方法相比，经过COCO train2017数据集微调后的YOLO-World展示了更高的性能。

● LVIS目标检测：在表7中，作者评估了YOLO-World在标准LVIS数据集上的微调性能。首先，与在完整LVIS数据集上训练的oracle YOLOv8s相比，YOLO-World取得了显著的提升，尤其是对于较大模型，例如，YOLO-World-L比YOLOv8-L在7.2 AP和10.2 AP上有更好的表现。这些改进可以证明所提出的大词汇量检测预训练策略的有效性。此外，作为高效的单阶段检测器，YOLO-World在总体性能上超过了之前最先进的两阶段方法，而且无需额外的设计，例如，可学习的提示或基于区域的算法。

4.4 开放词汇实例分割：

作者进一步对YOLO-World进行微调，以在开集设置下分割目标，这称为开集实例分割（OVIS）。先前的方法已经通过在新目标上使用伪标记来探索OVIS。不同的是，考虑到YOLO-World具有强大的迁移和泛化能力，作者直接在一个带有mask标注的数据子集上微调YOLO-World，并在大词汇设置下评估分割性能。具体来说，作者在两种设置下对开集实例分割进行了基准测试：

(1)在COCO到LVIS的设置中：作者在带有mask标注的COCO数据集（包括80个类别）上对YOLO-World进行微调，在这种情况下，模型需要从80个类别转移到1203个类别（80→1203）；

(2) 从LVIS-base到LVIS 设置中：作者在带有mask标注的LVIS-base（包括866个类别，常见且频繁）上对YOLO-World进行微调，在这种情况下，模型需要从866个类别转移到1203个类别(866→1203)。

作者评估了在标准LVIS val2017数据集上微调后的模型，该数据集包含1203个类别，其中337个稀有类别是未见过的，可以用来衡量开集的性能。

表8展示了将YOLO-World扩展用于开集实例分割的实验结果。具体来说，作者采用了两种微调策略：(1)仅微调分割头；(2)微调所有模块。在策略(1)下，微调后的YOLO-World仍然保留了预训练阶段获得的零样本能力，使其能够在没有额外微调的情况下泛化到未见过的类别。策略(2)使YOLO-World更好地适应LVIS数据集，但它可能会导致零样本能力的退化。

如表8所示，首先，基于LVIS-base的微调比基于COCO的微调获得更好的性能。然而，AP和APr（AP/APr）之间的比率几乎不变，例如，YOLO-World在COCO和LVIS-base上的比率分别为76.5%和74.3%。考虑到检测器是冻结的，作者将性能差距归因于LVIS数据集提供了更详细和更密集的分割标注，这对学习分割头是有利的。当微调所有模块时，YOLO-World在LVIS上获得了显著的改进，例如，YOLO-World-L实现了9.6个AP点的提升。然而，微调可能会降低开集性能，并导致YOLO-World-L的box APr下降了0.6。

4.5 可视化结果：

作者提供了在三种设置下预训练的YOLO-World-L的可视化结果：(a) 使用LVIS类别进行零样本推理；(b)输入带有细粒度类别和属性的定制提示；(c) 指代检测。这些可视化还表明，YOLO-World在开集场景中具有很强的泛化能力，并伴有指代能力。

● 在LVIS上的零样本推理：图5展示了基于LVIS类别生成的可视化结果，这些结果是预训练的YOLO-World-L以零样本方式生成的。预训练的YOLO-World展现了强大的零样本迁移能力，并能够尽可能地检测图像中的多个目标。

● 使用用户词汇进行推理: 在图6中，作者探索了用作者定义的类别进行YOLO-World检测的能力。可视化结果表明，预训练的YOLO-World-L也具备以下能力：(1)细粒度检测（即，检测一个物体的部分）, (2)细粒度分类（即，区分不同子类别的物体）。

● 参照目标检测: 在图7中，作者利用一些描述性（区分性）名词短语作为输入，例如“站立的人”，来探究模型是否能够定位图像中与给定输入相匹配的区域或目标。可视化结果显示了这些短语及其对应的边界框，证明了预训练的YOLO-World具有参照或定位的能力。这种能力可以归功于作者提出的大规模训练数据的预训练策略。

5.总结：

作者提出了YOLO-World，旨在提高现实世界应用中的效率和开集能力。在本文中，作者将流行的YOLO架构重新塑造为视觉-语言YOLO架构，用于开集的预训练和检测，并提出了RepVL-PAN，它将视觉和语言信息与网络连接起来，并可以重新参数化以实现高效部署。作者进一步提出了有效的预训练方案，包括检测、接地和图像-文本数据，以赋予YOLO-World强大的开集检测能力。实验可以证明YOLO-World在速度和开集性能方面的优越性，并指出视觉-语言预训练对小模型的有效性，这对未来研究具有启发意义。作者希望YOLO-World可以作为解决现实世界开集检测问题的新基准。

1.Abstract：

2.Introduction：

● 计算负担重；

● 边缘设备部署复杂。

以前的工作已经证明了预训练大型检测器的性能潜力，而预训练小型检测器以赋予它们开放识别能力尚未被探索。

主要贡献可以概括为三个方面：

(1) 作者介绍了YOLO-World，是一个前沿的开集目标检测器，它具有高效率，适用于实际应用场景。

(2) 作者提出了一个可重新参数化的视觉-语言PAN模型，用以连接视觉和语言特征，并针对YOLO-World设计了一套开集区域文本对比预训练方案。

3.YOLO-World：

3.1 Pre-training Formulation: Region-Text Pairs：

3.2 YOLO-World结构：

● 文本编码器：给定文本T，作者采用由CLIP预训练的Transformer文本编码器来提取相应的文本嵌入。

● 文本对比头：

3.3 Re-parameterizable Vision-Language PAN:

(备注：Multi-Head Cross- Attention (MHCA)，滤除无关信息，highlight对结果重要的特征。)

3.4 Pre-training Schemes：

本节作者介绍了在大规模检测、定位以及图像-文本数据集上对YOLO-World进行预训练的训练方案。

1) 提取名词短语：首先使用n-gram算法从文本中提取名词短语；

2) 伪标签：采用一个预训练的开集检测器，例如GLIP，为每张图像给定名词短语的生成伪边界框，从而提供粗糙的区域-文本对；

4.实验结果：

4.1 预训练：

4.2 消融实验：

4.3 微调实验：

作者进一步对YOLO-World进行微调，以在COCO数据集和LVIS数据集上进行闭集目标检测，以展示预训练的有效性。

4.4 开放词汇实例分割：

作者评估了在标准LVIS val2017数据集上微调后的模型，该数据集包含1203个类别，其中337个稀有类别是未见过的，可以用来衡量开集的性能。

4.5 可视化结果：

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

YOLO-World论文调研

1.Abstract：

2.Introduction：

3.YOLO-World：

4.实验结果：

5.总结：

YOLO-World论文调研

1.Abstract：

2.Introduction：

3.YOLO-World：

4.实验结果：

5.总结：

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

YOLO-World论文调研

1.Abstract：

2.Introduction：

3.YOLO-World：

4.实验结果：

5.总结：

YOLO-World论文调研

1.Abstract：

2.Introduction：

3.YOLO-World：

4.实验结果：

5.总结：