随着人工智能技术的快速发展,多模态(Multimodal)大模型已经成为连接不同数据形式的关键桥梁,使得机器能够更好地理解复杂的真实世界场景。在过去半年里,该领域取得了许多令人瞩目的成就,从模型架构创新到应用场景拓展。
一、模型架构与性能提升
Llama系列模型迭代更新
Meta公司在2024年7月和9月分别发布了Llama 3.1 和 Llama 3.2 系列模型1。前者在超过150个基准测试中展现了卓越的表现,尤其是在常识推理、数学计算以及多语言翻译等任务上;后者则进一步向多模态方向发展,推出了视觉理解和轻量化版本,其中包括90B和11B参数的视觉大语言模型,以及1B和3B参数的轻量级纯文本模型,后者适用于边缘和移动设备,显著减少了模型大小并提高了运行速度。
GPT系列模型迭代更新
2023年3月,GPT-4的发布进一步扩展了模型的输入模态,从单一文本扩展到图文双模态,提升了模型在复杂任务中的处理能力。2023年9月,GPT-4V发布,增强了模型的视觉能力,允许模型理解与分析图像输入。2023年11月,GPT-4 Turbo发布,它在GPT-4的基础上进行了优化,提升了性能和效率。2024年5月,GPT-4o发布,这是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出,展现了实时推理的能力。
Gemini 系列模型迭代更新
自2023年12月6日谷歌正式发布Gemini,2024年12月11日晚,谷歌正式发布其最新版大模型Gemini 2.0系列。Gemini 2.0 Flash是谷歌此次发布的Gemini 2.0系列模型中的第一个模型。相比上一代模型Gemini 1.5 Flash,Gemini 2.0 Flash除了支持图片、视频和音频等多模态输入,还支持多模态输出,例如其可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。Gemini 2.0 Flash还可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。
二、跨模态应用深化
医疗健康:结合医学影像、患者病历和医生笔记以提供更精确的诊断建议。
安防监控:整合视频流与音频记录来增强情境感知。
电子商务:通过理解用户查询意图和商品视觉特征改善搜索体验。
自动驾驶:利用摄像头捕捉的视觉信息配合地图和交通状况文字描述优化导航决策过程。
三、行业合作与生态建设
值得注意的是,各大科技巨头之间围绕着多模态技术的合作日益紧密。OpenAI正筹备其下一代多模态大模型,旨在开启视频、图像、三维模型乃至音频等多个领域的实时生成式AI新时代。与此同时,阿里巴巴云也宣布了一系列举措,包括但不限于发布最新开源多模态模型Ovis,持续推动这一领域的开放交流与发展。