InternVL 1.5 论文解读-天翼云开发者社区

InternVL 1.5，用于解决多模态理解能力差距的问题。具体来说，

强大的视觉编码器：通过对大规模视觉基础模型InternViT-6B进行持续学习，提升了其视觉理解能力，使其能够在不同LLMs之间迁移和重用。具体实现上，去掉了InternViT-6B的最后三层，将其分辨率从224x224提高到448x448，并与Nous-Hermes-2-Yi-34B集成。
动态高分辨率：根据输入图像的宽高比和分辨率，将图像分割成448x448像素的patch，patch数量从1到12不等，测试时可扩展到最多40个patch（即4K分辨率）。为了增强高分辨率的可扩展性，采用了像素洗牌操作，将视觉令牌数量减少到原始的四分之一。
高质量的双语数据集：收集了覆盖常见场景、文档图像的高质量双语数据集，并用中英文问答对进行标注，显著提升了OCR和中国相关任务的性能。数据集包括Laion-EN、Laion-ZH、COYO、GRIT、COCO等。

实验设计

数据收集：预训练数据集包括多种任务的数据，如图像字幕、检测、OCR（大、小）、对话等。具体数据集如Wukong-OCR、LaionCOCO-OCR、Common Crawl PDF等。微调数据集则针对特定任务进行了精心选择，如TextCaps、ShareGPT4V、VQAv2、GQA、VisualDialog等。
实验设计：训练分为两个阶段：预训练阶段和微调阶段。预训练阶段主要优化视觉特征提取，微调阶段则提升多模态能力。训练过程中使用了上下文长度为4096，并采用了与LLaVA 1.5相同的响应格式提示。
样本选择：数据集的来源多样，包括公开可访问的源和自建的数据集。通过PaddleOCR进行OCR处理，确保数据的多样性和质量。
参数配置：InternVL 1.5采用了260亿参数的模型，结合了预训练的InternViT-6B和InternLM2-20B，通过一个随机初始化的MLP投影器进行连接。

结果与分析

OCR相关任务：在DocVQA、ChartQA、InfoVQA和TextVQA等OCR相关基准测试中，InternVL 1.5表现优异，达到了最先进的水平，特别是在ChartQA和OCRBench上超越了所有竞争专有模型。
一般多模态任务：在RealWorldQA、HallusionBench、MMMU和AI2D等一般多模态基准测试中，InternVL 1.5也表现出色，特别是在HallusionBench上展示了其减少幻觉的能力。
数学推理：在MathVista数学推理基准测试中，InternVL 1.5显著优于其他模型，包括GPT-4V，展示了其在处理数学任务上的强大能力。
多轮对话：在ConvBench多轮对话评估基准测试中，InternVL 1.5在开源模型中表现领先，尽管仍落后于GPT-4V，但展示了其在多轮对话中的潜力。

结论

InternVL 1.5，一种旨在缩小开源和专有商业模型在多模态理解能力上差距的开源MLLM。通过结合强大的视觉编码器、动态高分辨率策略和高质量的双语数据集，InternVL 1.5在各种基准测试中展示了其竞争力，特别是在OCR相关任务和中国相关场景理解上表现突出。尽管InternVL 1.5已经为开源多模态理解做出了贡献，但该领域仍有许多挑战等待克服。作者希望进一步增强了InternVL的能力，并邀请全球研究社区的合作，共同丰富和扩展开源模型的影响。

实验设计

数据收集：预训练数据集包括多种任务的数据，如图像字幕、检测、OCR（大、小）、对话等。具体数据集如Wukong-OCR、LaionCOCO-OCR、Common Crawl PDF等。微调数据集则针对特定任务进行了精心选择，如TextCaps、ShareGPT4V、VQAv2、GQA、VisualDialog等。

实验设计：训练分为两个阶段：预训练阶段和微调阶段。预训练阶段主要优化视觉特征提取，微调阶段则提升多模态能力。训练过程中使用了上下文长度为4096，并采用了与LLaVA 1.5相同的响应格式提示。

样本选择：数据集的来源多样，包括公开可访问的源和自建的数据集。通过PaddleOCR进行OCR处理，确保数据的多样性和质量。

参数配置：InternVL 1.5采用了260亿参数的模型，结合了预训练的InternViT-6B和InternLM2-20B，通过一个随机初始化的MLP投影器进行连接。

结果与分析

OCR相关任务：在DocVQA、ChartQA、InfoVQA和TextVQA等OCR相关基准测试中，InternVL 1.5表现优异，达到了最先进的水平，特别是在ChartQA和OCRBench上超越了所有竞争专有模型。

一般多模态任务：在RealWorldQA、HallusionBench、MMMU和AI2D等一般多模态基准测试中，InternVL 1.5也表现出色，特别是在HallusionBench上展示了其减少幻觉的能力。

数学推理：在MathVista数学推理基准测试中，InternVL 1.5显著优于其他模型，包括GPT-4V，展示了其在处理数学任务上的强大能力。

多轮对话：在ConvBench多轮对话评估基准测试中，InternVL 1.5在开源模型中表现领先，尽管仍落后于GPT-4V，但展示了其在多轮对话中的潜力。

结论

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

InternVL 1.5 论文解读

实验设计

结果与分析

结论

InternVL 1.5 论文解读

实验设计

结果与分析

结论

活动

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

InternVL 1.5 论文解读

实验设计

结果与分析

结论

InternVL 1.5 论文解读

实验设计

结果与分析

结论