大规模视觉语言模型 Qwen-VL,具备图文识别、描述、问答及对话能力,主要特点包括
● 强大的性能:在多个评估基准(包括零样本图像描述、视觉问答、文档视觉问答和定位)上,它明显优于现有的开源大型视觉-语言模型(LVLMs)。
● 多语言支持:Qwen-VL自然地支持英文、中文和多语言交流,并促进了对中英双语文本和图像实例的端到端识别和定位。
● 多图像交织对话:这个特性允许输入和比较多个图像,以及指定与图像相关的问题,并进行多图像叙述。
● 精细化的识别和理解:相对于其他开源LVLM目前使用的224×224分辨率,448×448分辨率可以促进对细节的OCR文本识别、文档问答和边界框检测。
1. 模型结构
- LLM:使用Qwen-7B预训练模型
- 视觉编码器:使用openclip的ViT-bigG预训练模型
- 位置感知的视觉-语言Adapter:随机初始化的单层cross-attention module,使用一组可训练的embedding作为查询向量,使用图像特征作为键进行交叉注意力操作,将图像特征压缩为固定长度256。
- 引入2D绝对位置编码到交叉注意力机制中。
2. 输入输出
- 图片输入:图片经过视觉编码器和adapter转换层生成固定长度的图像特征,为了区分视觉的语言特征,在图像特征前后加入<img>和</img>两个token。
- bbox输入和输出:使用<box></box>标记box框坐标信息,<ref></ref>标记box框代表的目标。
3. 训练
训练包括三个阶段:两个pre-training阶段和一个finetuning阶段。
- first-stage pretraining
- 使用大规模网络爬取的,弱标注图文对训练,清洗后包含1.4b数据,77.3%为英文,22.7为中文
- 冻结llm模型,只优化vision encoder和 VL adapter,图片输入大小为224x224。
- multi-task pretraining
- 使用高质量的标注图文数据,扩大输入图片的分辨率为448
- 同时在7个任务上训练模型
- 解冻llm,训练整个模型。
- supervised finetuning
- 使用instruction finetuning提升模型的对话能力
- 冻结vision encoder,训练adapter和llm
- 使用手动标注,模型生成和策略串联等方式获得对话数据,将定位和多图像理解能力融入到Qwen-vl中
- 在训练是将图文数据和单文本数据混合训练,总数据大小为350k