InternVL 1.5,用于解决多模态理解能力差距的问题。具体来说,
-
强大的视觉编码器:通过对大规模视觉基础模型InternViT-6B进行持续学习,提升了其视觉理解能力,使其能够在不同LLMs之间迁移和重用。具体实现上,去掉了InternViT-6B的最后三层,将其分辨率从224x224提高到448x448,并与Nous-Hermes-2-Yi-34B集成。
-
动态高分辨率:根据输入图像的宽高比和分辨率,将图像分割成448x448像素的patch,patch数量从1到12不等,测试时可扩展到最多40个patch(即4K分辨率)。为了增强高分辨率的可扩展性,采用了像素洗牌操作,将视觉令牌数量减少到原始的四分之一。
-
高质量的双语数据集:收集了覆盖常见场景、文档图像的高质量双语数据集,并用中英文问答对进行标注,显著提升了OCR和中国相关任务的性能。数据集包括Laion-EN、Laion-ZH、COYO、GRIT、COCO等。
实验设计
- 数据收集:预训练数据集包括多种任务的数据,如图像字幕、检测、OCR(大、小)、对话等。具体数据集如Wukong-OCR、LaionCOCO-OCR、Common Crawl PDF等。微调数据集则针对特定任务进行了精心选择,如TextCaps、ShareGPT4V、VQAv2、GQA、VisualDialog等。
- 实验设计:训练分为两个阶段:预训练阶段和微调阶段。预训练阶段主要优化视觉特征提取,微调阶段则提升多模态能力。训练过程中使用了上下文长度为4096,并采用了与LLaVA 1.5相同的响应格式提示。
- 样本选择:数据集的来源多样,包括公开可访问的源和自建的数据集。通过PaddleOCR进行OCR处理,确保数据的多样性和质量。
- 参数配置:InternVL 1.5采用了260亿参数的模型,结合了预训练的InternViT-6B和InternLM2-20B,通过一个随机初始化的MLP投影器进行连接。
结果与分析
-
OCR相关任务:在DocVQA、ChartQA、InfoVQA和TextVQA等OCR相关基准测试中,InternVL 1.5表现优异,达到了最先进的水平,特别是在ChartQA和OCRBench上超越了所有竞争专有模型。
-
一般多模态任务:在RealWorldQA、HallusionBench、MMMU和AI2D等一般多模态基准测试中,InternVL 1.5也表现出色,特别是在HallusionBench上展示了其减少幻觉的能力。
-
数学推理:在MathVista数学推理基准测试中,InternVL 1.5显著优于其他模型,包括GPT-4V,展示了其在处理数学任务上的强大能力。
-
多轮对话:在ConvBench多轮对话评估基准测试中,InternVL 1.5在开源模型中表现领先,尽管仍落后于GPT-4V,但展示了其在多轮对话中的潜力。
结论
InternVL 1.5,一种旨在缩小开源和专有商业模型在多模态理解能力上差距的开源MLLM。通过结合强大的视觉编码器、动态高分辨率策略和高质量的双语数据集,InternVL 1.5在各种基准测试中展示了其竞争力,特别是在OCR相关任务和中国相关场景理解上表现突出。尽管InternVL 1.5已经为开源多模态理解做出了贡献,但该领域仍有许多挑战等待克服。作者希望进一步增强了InternVL的能力,并邀请全球研究社区的合作,共同丰富和扩展开源模型的影响。