searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

InternVL 1.5 论文解读

2024-08-30 09:39:19
18
0

InternVL 1.5,用于解决多模态理解能力差距的问题。具体来说,

  1. 强大的视觉编码器:通过对大规模视觉基础模型InternViT-6B进行持续学习,提升了其视觉理解能力,使其能够在不同LLMs之间迁移和重用。具体实现上,去掉了InternViT-6B的最后三层,将其分辨率从224x224提高到448x448,并与Nous-Hermes-2-Yi-34B集成。

     

  2. 动态高分辨率:根据输入图像的宽高比和分辨率,将图像分割成448x448像素的patch,patch数量从1到12不等,测试时可扩展到最多40个patch(即4K分辨率)。为了增强高分辨率的可扩展性,采用了像素洗牌操作,将视觉令牌数量减少到原始的四分之一。

     

  3. 高质量的双语数据集:收集了覆盖常见场景、文档图像的高质量双语数据集,并用中英文问答对进行标注,显著提升了OCR和中国相关任务的性能。数据集包括Laion-EN、Laion-ZH、COYO、GRIT、COCO等。

实验设计

  1. 数据收集:预训练数据集包括多种任务的数据,如图像字幕、检测、OCR(大、小)、对话等。具体数据集如Wukong-OCR、LaionCOCO-OCR、Common Crawl PDF等。微调数据集则针对特定任务进行了精心选择,如TextCaps、ShareGPT4V、VQAv2、GQA、VisualDialog等。
  2. 实验设计:训练分为两个阶段:预训练阶段和微调阶段。预训练阶段主要优化视觉特征提取,微调阶段则提升多模态能力。训练过程中使用了上下文长度为4096,并采用了与LLaVA 1.5相同的响应格式提示。
  3. 样本选择:数据集的来源多样,包括公开可访问的源和自建的数据集。通过PaddleOCR进行OCR处理,确保数据的多样性和质量。
  4. 参数配置:InternVL 1.5采用了260亿参数的模型,结合了预训练的InternViT-6B和InternLM2-20B,通过一个随机初始化的MLP投影器进行连接。

结果与分析

  1. OCR相关任务:在DocVQA、ChartQA、InfoVQA和TextVQA等OCR相关基准测试中,InternVL 1.5表现优异,达到了最先进的水平,特别是在ChartQA和OCRBench上超越了所有竞争专有模型。

     

  2. 一般多模态任务:在RealWorldQA、HallusionBench、MMMU和AI2D等一般多模态基准测试中,InternVL 1.5也表现出色,特别是在HallusionBench上展示了其减少幻觉的能力。

  3. 数学推理:在MathVista数学推理基准测试中,InternVL 1.5显著优于其他模型,包括GPT-4V,展示了其在处理数学任务上的强大能力。

  4. 多轮对话:在ConvBench多轮对话评估基准测试中,InternVL 1.5在开源模型中表现领先,尽管仍落后于GPT-4V,但展示了其在多轮对话中的潜力。

     

结论

InternVL 1.5,一种旨在缩小开源和专有商业模型在多模态理解能力上差距的开源MLLM。通过结合强大的视觉编码器、动态高分辨率策略和高质量的双语数据集,InternVL 1.5在各种基准测试中展示了其竞争力,特别是在OCR相关任务和中国相关场景理解上表现突出。尽管InternVL 1.5已经为开源多模态理解做出了贡献,但该领域仍有许多挑战等待克服。作者希望进一步增强了InternVL的能力,并邀请全球研究社区的合作,共同丰富和扩展开源模型的影响。

0条评论
0 / 1000
9****m
7文章数
1粉丝数
9****m
7 文章 | 1 粉丝
原创

InternVL 1.5 论文解读

2024-08-30 09:39:19
18
0

InternVL 1.5,用于解决多模态理解能力差距的问题。具体来说,

  1. 强大的视觉编码器:通过对大规模视觉基础模型InternViT-6B进行持续学习,提升了其视觉理解能力,使其能够在不同LLMs之间迁移和重用。具体实现上,去掉了InternViT-6B的最后三层,将其分辨率从224x224提高到448x448,并与Nous-Hermes-2-Yi-34B集成。

     

  2. 动态高分辨率:根据输入图像的宽高比和分辨率,将图像分割成448x448像素的patch,patch数量从1到12不等,测试时可扩展到最多40个patch(即4K分辨率)。为了增强高分辨率的可扩展性,采用了像素洗牌操作,将视觉令牌数量减少到原始的四分之一。

     

  3. 高质量的双语数据集:收集了覆盖常见场景、文档图像的高质量双语数据集,并用中英文问答对进行标注,显著提升了OCR和中国相关任务的性能。数据集包括Laion-EN、Laion-ZH、COYO、GRIT、COCO等。

实验设计

  1. 数据收集:预训练数据集包括多种任务的数据,如图像字幕、检测、OCR(大、小)、对话等。具体数据集如Wukong-OCR、LaionCOCO-OCR、Common Crawl PDF等。微调数据集则针对特定任务进行了精心选择,如TextCaps、ShareGPT4V、VQAv2、GQA、VisualDialog等。
  2. 实验设计:训练分为两个阶段:预训练阶段和微调阶段。预训练阶段主要优化视觉特征提取,微调阶段则提升多模态能力。训练过程中使用了上下文长度为4096,并采用了与LLaVA 1.5相同的响应格式提示。
  3. 样本选择:数据集的来源多样,包括公开可访问的源和自建的数据集。通过PaddleOCR进行OCR处理,确保数据的多样性和质量。
  4. 参数配置:InternVL 1.5采用了260亿参数的模型,结合了预训练的InternViT-6B和InternLM2-20B,通过一个随机初始化的MLP投影器进行连接。

结果与分析

  1. OCR相关任务:在DocVQA、ChartQA、InfoVQA和TextVQA等OCR相关基准测试中,InternVL 1.5表现优异,达到了最先进的水平,特别是在ChartQA和OCRBench上超越了所有竞争专有模型。

     

  2. 一般多模态任务:在RealWorldQA、HallusionBench、MMMU和AI2D等一般多模态基准测试中,InternVL 1.5也表现出色,特别是在HallusionBench上展示了其减少幻觉的能力。

  3. 数学推理:在MathVista数学推理基准测试中,InternVL 1.5显著优于其他模型,包括GPT-4V,展示了其在处理数学任务上的强大能力。

  4. 多轮对话:在ConvBench多轮对话评估基准测试中,InternVL 1.5在开源模型中表现领先,尽管仍落后于GPT-4V,但展示了其在多轮对话中的潜力。

     

结论

InternVL 1.5,一种旨在缩小开源和专有商业模型在多模态理解能力上差距的开源MLLM。通过结合强大的视觉编码器、动态高分辨率策略和高质量的双语数据集,InternVL 1.5在各种基准测试中展示了其竞争力,特别是在OCR相关任务和中国相关场景理解上表现突出。尽管InternVL 1.5已经为开源多模态理解做出了贡献,但该领域仍有许多挑战等待克服。作者希望进一步增强了InternVL的能力,并邀请全球研究社区的合作,共同丰富和扩展开源模型的影响。

文章来自个人专栏
论文笔记
5 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0