searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

多模态大模型应用展示及潜在场景浅谈

2024-05-21 09:44:42
54
0

       今年多模态大模型取得长足的发展,本文结合目前业界标杆的多模态大模型(如GPT-4v),通过一些演示case,对多模态亮点能力进行总结分析,以及对一些多模态大模型的潜在应用场景进行介绍。

亮点能力1:采用QA问答方式来实现cv及nlp任务的无缝统一

        如上图所示,与以往的cv模型处理任务方式不同,目前多模态大模型可以通过QA(问答)方式,结合输入图像信息,将感兴趣的cv任务,如目标检测、属性识别等,统一为多模态大模型单轮或多轮问答交互。该实现方式的优点为融入了大模型的背景知识,如上图可在识别出人物的基础上,进一步识别出ai大佬,并增加人物的介绍。但目前采用prompt + VQA的方式实现cv任务大统一,仍然在研究初期,面临的大模型幻觉问题并没有得到根本解决,同时cv任务的指标与sota的cv模型还是有一定差距,仍有很长的路要走。

亮点能力2:动态内容分析能力提升

        如上图所示,GPT-4V将多张图片进行联合分析,结合大模型的背景知识能力,通过上下文学习,可以实现人物关系的深度分析,行为识别,点球预测,厨艺解说等功能。

亮点能力3:人机交互能力增强

        GPT-4V独特的理解输入图像上绘制的视觉标记的能力可以产生新的人机交互方法(给大模型“划重点”),如视觉参考提示,也衍生出新的多模态算法任务,如上图所示,用户不但可以基于自然语言的方式,结合图像进行提示,也可以直接通过cv的方式,如划箭头、框框等方式,提升多模态大模型的单轮和多轮交互能力。

亮点能力4:现场学习

        现场学习是多模态大模型最显著的亮点能力之一,如上图所示,在做汽车里程表盘车速识别任务中,多模态模型无法通过zero-shot和prompt得到车速仪表盘的精确读数,但用户可通过提供另外一张仪表盘的图像,以及提供读数的分析方法,让大模型得到正确的读数,该期间大模型不需要进行微调训练,提升了情景分析的有效性。

亮点能力5:图文理解能力联合提升

        多种模态的对齐及联合分析处理,可达到1+1 > 2的效果,如上图所示,多模态大模型可通过一些简单的智商推理测试,也可以看懂笑话中的梗,在逻辑推理、复杂跨模型理解上得到了增量提升,能直接看懂“内涵图”,这也是与单模态模型进行模块级组合的不同之处。

潜在应用1-自动驾驶

      城市环境中自动驾驶的主要障碍是理解复杂的长尾场景,例如具有挑战性的道路条件和微妙的人类行为。多模态大模型有望来增强场景理解和规划能力的自动驾驶系统,并集成了用于场景描述、场景分析和分层规划的任务组合。

潜在应用2:医疗诊断

         医疗诊断也是多模态大模型非常有前景的应用领域之一,目前所探讨的医疗诊断任务包括:

  1. 识别医学图像的模态和成像位置
  2. 定位医学图像的不同解剖结构
  3. 发现和定位医学图像异常
  4. 结合多张图像进行诊断
  5. 撰写医疗诊断报告
  6. 解读医学影响时整合患者病史,提供诊断建议

潜在应用3:智能终端/具身智能

       将多模态大模型轻量化、小型化是产品落地的有利抓手之一,目前诸多手机终端厂家、智能终端厂家积极探索多模态大模型+多源传感器的产品方案,实现传统产品的科技升级,此外具身智能多模态机器人也是今年的探索热点之一。

参考资料:

GPT-4V测试报告:The Dawn of LMMs: Preliminary Explorations with GPT-4V(vision) 

0条评论
0 / 1000