searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享

简述视觉语言模型在视频上的应用现状

2024-06-26 09:44:46
6
0

大型语言模型(LLM)已逐渐扩展到视觉领域。从视觉助手到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)应用将极大地影响我们与技术的关系。

除了在静态视觉数据(即图像)上训练和评估的VLM,动态视觉数据(即视频)同样具备应用价值。视频数据为模型带来了新的挑战和潜在的新功能,例如理解物体的运动和动态或在空间和时间中定位物体和动作。文本到视频的检索、视频问答和生成,迅速成为基本的计算机视觉任务。视频的时间空间对存储、GPU内存和训练提出了挑战(例如,如果将每帧视为图像,则24fps的视频需要24倍的存储/处理)。这需要在视频的VLM中进行权衡,例如压缩形式的视频(例如H.264编码)和实时视频。在数据加载器中运行视频译码器;从图像编码器初始化视频编码器;视频编码器具有空间/时间池化/掩蔽机制;非端到端VLM(脱机提取视频特征并训练采用视频特征而不是长视频的像素帧的模型)。

早期的视频-文本模型使用自监督标准从头开始训练视觉和文本组件。对比视频-文本模型并不是首选方法,早期融合和视频和文本的时间对齐是首选,因为与计算视频的全局表示相比,表示中更多的时间粒度更有趣。最近,视频语言模型出现了与图像语言模型类似的趋势:使用预训练的LLM并与视频编码器对齐,增强LLM的视频理解能力。视觉指令调整等现代技术也常用于视频并加以改进。

  1. 基于BERT的视频早期研究
    尽管最初的视频语言方法高度特定于它们要解决的任务,例如视频检索或视频问答,但VideoBERT是第一个成功的视频语言建模通用方法。与成功用于图像语言建模的基于CLIP的对比学习方法相反,VideoBERT是一种早期的融合方法,类似于Flamingo,其中代表视频字幕的视觉和文本标记与单个Transformer网络融合在一起。视频资料来自YouTube的烹饪教学视频,并使用自动语音识别(ASR)获取对齐的文本。视频逐帧处理,每帧对应一个视觉标记。然后,预训练目标基于流行的BERT语言模型,其中一些标记被屏蔽和重建。VideoBERT表现出了强大的一致性,并且是第一个能够在需要生成文本的视频任务上表现良好的模型,例如零样本动作分类和开放式视频字幕。
    除了全局视频和文本对齐(将描述性句子与视频匹配)之外,多模态事件表征学习随时间变化(MERLOT)还实现了视频语言对齐,其中文本在时间上与视频对齐。与在精选的烹饪教学视频上进行训练的VideoBERT不同,MERLOT是在YouTube视频的大规模数据集上进行训练的,该数据集的精选程度较低,也更加多样化,并且相应的文本由ASR获取。该模型使用以纯自监督方式训练的Transformer网络,以局部文本标记和帧视觉标记之间的对比目标、屏蔽语言建模目标和时间重新排序目标为目标。该模型在当时展示了令人印象深刻的问答任务能力,尤其是视觉常识推理。
    首先,它能够将从视频中学到的知识迁移到回答图像中接下来会发生什么的问题,这表明视频模型对于理解视觉世界非常有用。其次,它能够回答来自大量数据集和基准的视频中特别困难的问题。MERLOT的主要限制是它缺乏生成文本的能力,这使它无法展示高级视觉推理能力。
  2. 使用早期融合VLM实现文本生成
    VideoOFA是一种用于视频到文本生成的早期融合VLM。许多早期的视频VLM要么缺乏生成文本的能力,要么将视频编码器与单独训练的文本译码器相结合,导致准确率不理想。相比之下,VideoOFA提出了一个两阶段预训练框架,以使单个生成式图像文本VLM适应视频文本任务。具体来说,VideoOFA从能够生成文本的图像文本VLM初始化,并在大量图像文本数据上进行联合预训练,以学习基本的视觉语言表征。
    然后,它提出了一个中间视频文本预训练步骤,以使骨干VLM适应视频文本任务并学习特定于视频的概念,例如时间推理。中间预训练阶段包括三个训练目标,全部重新表述为视频到文本的生成任务:视频字幕、视频文本匹配和帧顺序建模。VideoOFA在多个视频字幕和视频问答基准上进行了评估,与以前的模型相比,其性能有所提高。
  3. 使用预训练的LLM
    图像语言模型逐渐趋向于利用现有LLM的强大功能来理解文本。其想法不是训练语言模型以使其与预先训练的视觉主干对齐,而是将视觉主干与现有LLM对齐,通常使用字幕目标。视频模型也遵循了同样的趋势,Video-LLaMA成为一种流行的方法,展示了强大的视频语言对齐,包括视觉和音频信号。Video-LLaMA的架构基于BLIP-2,视频Q-former和音频Q-former分别在Webvid-2M(一个精选的视频数据集)上进行训练,以便将语言与视频和音频对齐。LLM是一个LLaMA模型,训练目标是字幕损失。作为第二步,该模型根据来自MiniGPT-4、LLaVA和VideoChat的视觉教学数据进行微调,使其适合人机交互。Video-LLaMA是一个对话代理,因此不采用标准基准进行评估。
    该模型可通过聊天API访问,用户可以使用文本提示、视频和图像与模型对话,并提出与之相关的问题。许多后续研究,如Video-LLaVA,进一步探索了LLM与视频的对齐。
    较新的版本MiniGPT4-Video扩展了MiniGPT-v2,以便通过文本输⼊进行视频理解。MiniGPT4-Video采用了MiniGPT-v2中的方案,将每四个相邻的视觉标记连接成一个标记,以减少输⼊标记的数量而不会丢失太多信息。除了视觉标记外,还会提取每帧字幕中的文本标记,以更好地表示每个视频帧。这种视觉标记和文本标记的混合可以促进LLM对视频内容的理解。MiniGPT4-Video的架构由视觉编码器、单个线性投影层和大型语言模型组成。为了评估MiniGPT4-Video的有效性,使用了三种类型的基准来展示其在视频理解方面的良好性能,包括Video-ChatGPT、开放式问题和多项选择题(MCQ)。MiniGPT4-Video的表现始终优于现有的在MSVD、MSRVTT、TGIF和TVQA基准上均以较大优势超越了VideoLLaMA等最新模型。
  4. 评估中的机会
    虽然视频基准检验通常与图像基准检验类似(例如字幕),但视频也为其他类型的评估打开了大门。诸如EgoSchema之类的数据集要求模型回答长视频中的问题,其中必须了解对象/代理之间的交互。这使评估可以超越描述场景的范围,而仅靠图像很难做到这一点。同样,ActivityNet-QA、MSVD-QA和MSRVTT-QA需要检索相关帧/定位动作才能正确回答问题。但是,对于很多问题来说,查看一个简单的帧就足以提供准确的答案。例如,展示一场足球比赛并询问“人们在玩什么运动?”不需要查看单个帧以外的内容。这就提出了一个问题:视频的时间方面对于解决当前的视频基准检验有多重要。
    理解视频中动作的语义方面非常重要,但视频也提供了探索推理能力或对模型世界的理解的独特机会。为此,合成资料已被证明在探索基于视频的VLM的推理能力方面非常有效。在Jassim等人的论文中,视频的生成方式要么遵循物理定律,要么违反物理定律。例如,突然消失的球违反了时空连续性。然后询问模型视频中的元素(例如球的轨迹)是否遵循物理定律。也许令人惊讶的是,诸如VideoLLaMA或PandaGPT之类的模型并没有超过随机性能,而人类的准确率则超过80%。这些发现表明,视频VLM仍然缺乏一些基本的推理能力,这些能力可以通过合成数据有效探索。
    尽管视频VLM的当前功能令人印象深刻,但仍有机会进一步探究其推理能力,这只有通过视频的时间特性才有可能。
  5. 利用视频资料的挑战
    视频文本预训练面临的一个挑战是,目前缺乏对时间空间的(弱)监督,VideoPrism中说明了这个问题。现有资料(例如来自互联网)侧重于描述场景的内容,而不是动作或运动,这使得视频模型降级为图像模型。在视频上训练的CLIP模型也可能表现出名词偏见,这使得对交互进行建模变得更加困难。这产生了在视频上训练但缺乏时间理解的模型。生成包含有关场景内容以及时间方面的信息的成对视频字幕数据比描述图像中的场景更复杂(且成本更高)。有一些可能的解决方案。例如,可以使用视频字幕模型来生成更多字幕,但这需要一个初始的高质量数据集来训练这个字幕生成器。另一种选择是仅在视频上训练视频编码器。VideoPrism也利用了这一点,因为它可以限制不完美字幕的影响。除了数据之外,另一个挑战是计算。处理视频比处理图像更昂贵,但它是一种更加冗余的模态。虽然图像有很多冗余信息,但视频中连续的两个帧更加相似。因此需要更有效的训练协议,例如使用掩蔽,这种技术已被证明对基于图像的VLM有用。所有这些挑战,无论是关于预训练数据、计算还是评估质量,都指向有希望的研究方向,即更好地理解世界的视频VLM。
0条评论
0 / 1000