searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

多模态视频理解模型MA-LMM

2024-07-17 09:39:46
24
0

1. 介绍

  1. 长期视频理解: MA-LMM能够处理和理解长时间的视频内容,如电影和电视节目。
  2. 记忆库机制: 通过长期记忆库来存储和累积过去的视频信息,用于后续的视频序列处理。
  3. 高效处理: 采用在线处理方式,显著减少了处理长视频所需的GPU内存占用。
  4. 多模态能力: 结合视觉编码器和大型语言模型,能够处理图像和视频,并生成文本描述。

2. 主要方法

  1. 视觉特征提取:使用预训练的视觉编码器提取视频帧的特征,并根据图像帧在视频中的位置加上位置编码。
  2. 其次,通过可训练的查询转换器(Q-Former)对齐视觉和文本嵌入空间,并使用长期记忆库来捕捉视频的时间信息
  3. 使用冻结的大型语言模型进行文本解码,生成最终的视频理解结果。

3. 长期记忆建模

  1. visual memory bank

          将视频中多帧图像的特征concat

          多个Q-former block使用相同的visual feature。

  1. query memory bank

          每个Qformer block使用不同的query feature。

          在训练中,query学习不同的视频数据特征

  1. memory bank compression

          当有一个新特征加入时,使用余弦相似度计算相邻特征之间的相似度,将相似度最大的两个特征向量合并,使用其均值替代原来的两个向量。

0条评论
作者已关闭评论
l****n
5文章数
0粉丝数
l****n
5 文章 | 0 粉丝
原创

多模态视频理解模型MA-LMM

2024-07-17 09:39:46
24
0

1. 介绍

  1. 长期视频理解: MA-LMM能够处理和理解长时间的视频内容,如电影和电视节目。
  2. 记忆库机制: 通过长期记忆库来存储和累积过去的视频信息,用于后续的视频序列处理。
  3. 高效处理: 采用在线处理方式,显著减少了处理长视频所需的GPU内存占用。
  4. 多模态能力: 结合视觉编码器和大型语言模型,能够处理图像和视频,并生成文本描述。

2. 主要方法

  1. 视觉特征提取:使用预训练的视觉编码器提取视频帧的特征,并根据图像帧在视频中的位置加上位置编码。
  2. 其次,通过可训练的查询转换器(Q-Former)对齐视觉和文本嵌入空间,并使用长期记忆库来捕捉视频的时间信息
  3. 使用冻结的大型语言模型进行文本解码,生成最终的视频理解结果。

3. 长期记忆建模

  1. visual memory bank

          将视频中多帧图像的特征concat

          多个Q-former block使用相同的visual feature。

  1. query memory bank

          每个Qformer block使用不同的query feature。

          在训练中,query学习不同的视频数据特征

  1. memory bank compression

          当有一个新特征加入时,使用余弦相似度计算相邻特征之间的相似度,将相似度最大的两个特征向量合并,使用其均值替代原来的两个向量。

文章来自个人专栏
音视频1
5 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0