1. 介绍
- 长期视频理解: MA-LMM能够处理和理解长时间的视频内容,如电影和电视节目。
- 记忆库机制: 通过长期记忆库来存储和累积过去的视频信息,用于后续的视频序列处理。
- 高效处理: 采用在线处理方式,显著减少了处理长视频所需的GPU内存占用。
- 多模态能力: 结合视觉编码器和大型语言模型,能够处理图像和视频,并生成文本描述。
2. 主要方法
- 视觉特征提取:使用预训练的视觉编码器提取视频帧的特征,并根据图像帧在视频中的位置加上位置编码。
- 其次,通过可训练的查询转换器(Q-Former)对齐视觉和文本嵌入空间,并使用长期记忆库来捕捉视频的时间信息
- 使用冻结的大型语言模型进行文本解码,生成最终的视频理解结果。
3. 长期记忆建模
- visual memory bank
将视频中多帧图像的特征concat
多个Q-former block使用相同的visual feature。
- query memory bank
每个Qformer block使用不同的query feature。
在训练中,query学习不同的视频数据特征
- memory bank compression
当有一个新特征加入时,使用余弦相似度计算相邻特征之间的相似度,将相似度最大的两个特征向量合并,使用其均值替代原来的两个向量。