1. 基本概念
当前图像理解类多模态大模型(vlm)蓬勃发展,在医疗诊断、自动驾驶、电商客服等多个场景取得了突破,该类多模态模型通常接收单个/多个图像或视频,通过视觉编码器提取视觉特征token,经过多模态投影层进行模态间的对齐及融合后,接入大语言模型基座(llm)实现视觉理解算法能力。
2. benchmark评测重要性
大模型研发是持续迭代的过程,全面可量化的基准具有至关重要的参考意义,benchmark基准测试具有以下优点:
- 基于benchmark对开源sota候选模型进行快速验证,高效实现模型选型,形成baseline
- 确定当前迭代版本与预期版本的gap,客观掌握研发进度和风险
- 精细化掌握当前模型在某方面的短板,针对性进行优化(如收集该方面的数据集,制定算法策略进行定向迭代)
3. VLM大模型评测分类
3.1 感知与理解:奠定多模态模型的基础
vlm的感知与理解能力是其多模态任务处理的核心。
1)综合评估: vlm依赖于强大的语言模型来执行多模态任务,研究人员提出了大量的综合评估基准,以全面测试vlm在感知与理解方面的表现。这些基准有效地评估了模型在对象识别、场景上下文理解以及响应视觉内容问题等任务中的准确性。
2)细粒度感知: 细粒度感知是vlm的重要组成部分,评估模型在检测和识别场景中可见物体的能力,尤其关注局部区域的细节处理能力和多模态信号与文本信息对齐的精度。细粒度感知对于多模态理解十分重要,能够有效提高模型在复杂场景中的表现。
3)图像理解: 图像理解任务测试vlm从视觉内容中提取有意义信息的能力。这类评估旨在衡量模型是否能够掌握场景的上下文,将视觉细节与文本信息有效结合,并生成连贯的描述和洞察。
3.2 认知与推理:实现复杂任务的高级能力
在认知与推理方面,vlm展现了超越基础感知能力的复杂信息处理与逻辑推理能力。
1)通用推理: vlm需要从多模态信号和文本输入中提取相关信息,从而推导出逻辑结论。评估模型的通用推理能力,主要集中在视觉关系推理、上下文推理及思维链推理等。模型需要展现其对多模态信号和文本信息之间复杂关系的理解与处理能力。
2)基于知识的推理: vlm在处理复杂任务时,基于知识的推理能力十分重要。评估模型是否能够利用外部知识库或常识性知识来回答问题,测试其在知识更新和维护中的准确性和一致性也是评估的一个重要方面。
3)智能与认知: 借鉴人类认知发展理,一些评估基准测试vlm在抽象信息推理和多学科问题中的表现。通过解决复杂的数学问题或多学科问题,评估模型是否能够在多个知识领域中整合和应用信息。
3.3 特定领域应用:从理论到实践的延伸
vlm模型的特定领域应用能力近年来同样获得了越来越多的关注,尤其是在处理复杂专业任务和特定场景中的表现。
1)富文本视觉问答: 评估MLLMs在文本与图像信息集成分析中的表现,特别是文本识别、上下文理解和多模态文档处理能力。通过这种评估,可以深入了解模型在实际应用中的适应性,尤其是在处理含有复杂文本和图像组合的场景中。
2)决策代理: vlm在动态环境中执行基于代理的决策任务的能力是其智能化的重要体现。相关评估测试了模型在复杂场景中的规划与调度能力,这种能力对于解决如具身智能、自动驾驶等现实世界中的问题至关重要。
3)多样化文化与语言: 目前大多数基准测试主要集中在英语文本的语境下,而忽视了其他语言和文化背景的需求。为此,一些用于评估vlm在多语言和多文化场景中表现的基准被提出,以评估模型是否具备更广泛的适应性和应用能力。
4)其他应用: 此外,部分评估基准侧重于测试vlm在医学、工业设计等高度专业化领域中的表现。这些评估用于测试模型在处理特定领域数据时的适应性,从而展现vlm应对复杂的专业任务和现实应用场景的能力。
3.4 关键能力:提升用户体验的核心
vlm的关键能力不仅影响其性能表现,还直接关系到用户的实际体验。
1)对话能力: 部分评估基准测试了vlm在处理复杂对话场景中的表现,特别是在长上下文理解和复杂指令执行方面的能力。确保模型能够在多样化对话中进行有效的互动,并准确执行用户的复杂指令。
2)幻觉: 幻觉问题是vlm面临的主要挑战之一,幻觉指的是模型生成的内容与实际的多模态信号输入不符。相关评估测试了vlm在幻觉上的表现,并探索了如何通过更有效和更高效的方式来自动化地检测和评估幻觉问题。
3)可信度: vlm的可信度评估涉及多个方面,包括准确性、一致性以及在处理敏感内容时的安全性。稳健性评估测试了模型在面对不同或意外输入时的表现,确保其在各种条件下输出的可靠性。同时,安全性评估则关注模型是否能够避免生成有害或不当内容,从而保护用户免受潜在风险。
3.5 其他模态:扩展多模态模型的潜力
除了图像模态外,视频、音频和三维场景等其他模态也提供了丰富的现实世界信息。这些模态不仅增强了模型理解复杂场景的能力,还为评估多模态大模型在真实任务中的表现提供了重要依据。
1)视频: 视频信号不仅包含图像信息,还涉及时序信息和视频上下文信息。评估模型在视频任务中的表现,尤其是在时间感知、动作理解和事件推理方面,是多模态大模型在视频理解中的关键任务。模型是否能够充分理解时序信息以及分析长视频的能力也构成了视频模态评估的重要维度。
2)音频: 音频模态通过语音、环境声和音乐等多种形式,为评估模型提供了额外的维 度。评估音频模态的关键在于模型如何处理和理解音频信号,特别是在跨模态任务中的表现,例如处理语音指令、理解环境音和音乐。在多模态交互中,模型不仅需要准确理解语音内容,还要能够综合分析音频与其他模态的关联性。
3)三维场景: 三维场景相比二维图像,提供了更为精确的空间关系、深度和遮挡信息,这对于解释复杂环境至关重要。评估模型在三维场景中的表现,尤其是在物体检测、场景理解和空间推理等任务中的能力,是确保模型能够有效处理三维信息的关键。
4)全模态: 现实世界中的多模态信息通常同时涉及音频、图像、视频和文本等多种模态。评估模型在处理多个模态同时出现的任务中的表现,能够更全面地评估其适应现实场景的能力。全模态评估不仅能够考察模型的多模态交互能力,还能揭示其在多任务环境中的潜在优势与不足。
4. 现存多模态评测不足及挑战
大型视觉语言模型最近取得了显著的进展,表现出对视觉信息的强大感知和推理能力。
然而,如何有效地评估这些大型视觉语言模型仍然是一个主要障碍,阻碍了未来模型的发展。像 VQAv2 或 COCO 标题这样的传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和非稳健的评估指标。最近的主观基准,如 OwlEval,通过结合人力提供了对模型能力的全面评估,但它们不可扩展并显示出明显的偏差,主要不足和挑战体现在如下两方面:
- 主观评价:人为引入偏差,结果难稳定复现
- 客观评价:客观指标需要精确匹配,难以避免出现False Negative问题
5. MMbench简介
5.1评测体系设计
本文接下来介绍MMbench评测数据集及实现方法,应对vlm类多模态模型测评的不足及挑战。MMBench 中现有能力维度的概述。目前,MMBench 包含三个级别的能力维度(从 L-1 到 L-3),涵盖了 20 种不同的叶能力。总共包含3,217个精心挑选的问题。
数据集设计及介绍
benchmark数据集处理流程如下:
MMbench-CN数据集根据MMbench-EN通过大模型翻译任务构建,prompt设计如下:
5.2 评测方法
设计成单选题进行任务评测,但允许模型回复出不在ABCD里的答案,最后用GPT-4进行评测打分
理想情况下,希望模型做Exact Matching,从ABCD里回复精确候选答案,但因为有些多模态大模型的指令跟随能力有限,这时需要提供一种辅助手段,将模型生成答案与标准答案进行语义匹配,借助人工/大模型进行评测。经验证,借助GPT-4评测结果与人类匹配度高,开源模型做辅助评测,和人类评测匹配度较低。
5.3 关键技术
引入了一种新的循环评估策略(CircularEval),以提高评估过程的鲁棒性。之后,使用 GPT-4 将模型的预测与给定选择进行匹配,即使从指令跟随能力较差的 VLM 的预测中也能成功提取选择。
实现方法:GT出现在ABCD位置依次轮换,只有4个prompt都推理正确,才算正确,例如: