模型简介
Qwen-VL-Chat模型是在阿里云研发的大规模视觉语言模型 Qwen-VL系列的基础上,使用对齐机制打造的视觉AI助手,该模型有更优秀的中文指令跟随,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。
使用场景
Qwen-VL-Chat是通用多模态大规模语言模型,可以完成多种视觉语言任务,被应用于视觉问答,文字理解,图表数学推理,多图理解和Grounding(根据指令标注图片中指定区域的包围框)等多方面。
评测效果
零样本图像描述生成(Zero-shot Image Caption)及通用视觉问答(General VQA)
- 在 Zero-shot Captioning 中,Qwen-VL 在 Flickr30K 数据集上取得了 SOTA 的结果,并在 Nocaps 数据集上取得了和 InstructBlip可竞争的结果。
- 在 General VQA 中,Qwen-VL 取得了 LVLM 模型同等量级和设定下 SOTA 的结果。
细粒度视觉定位(Referring Expression Comprehension)
- 在定位任务上,Qwen-VL 全面超过 Shikra-13B,取得了目前 Generalist LVLM 模型上在 Refcoco 上的 SOTA 。
- Qwen-VL 并没有在任何中文定位数据上训练过,但通过中文 Caption 数据和 英文 Grounding 数据的训练,可以 Zero-shot 泛化出中文 Grounding 能力。
对话能力测评
采用TouchStone测评,它是一个基于 GPT4 打分来评测 LVLM 模型的图文对话能力和人类对齐水平的基准。
测评结果如下:
英语
Model | Score |
---|---|
PandaGPT | 488.5 |
MiniGPT4 | 531.7 |
InstructBLIP | 552.4 |
LLaMA-AdapterV2 | 590.1 |
LLaVA | 602.7 |
mPLUG-Owl | 605.4 |
Qwen-VL-Chat | 645.2 |
Qwen-VL-Chat-1.1 | 711.6 |
中文
Model | Score |
---|---|
VisualGLM | 247.1 |
Qwen-VL-Chat | 401.2 |
Qwen-VL-Chat-1.1 | 481.7 |
Qwen-VL-Chat 模型在中英文的对齐评测中均取得当前 LVLM 模型下的最好结果。
技术亮点
- 强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果。
- 多语言对话模型:天然支持多语言对话,端到端支持图片里中英双语的长文本识别。
- 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等。
- 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注。
- 细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
相关引用
如对您有帮助,欢迎引用。
@article{Qwen-VL,
title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
author={Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren},
journal={arXiv preprint arXiv:2308.12966},
year={2023}
}
免责声明
Qwen-VL-Chat模型,来源于第三方,本平台不保证其合规性,请您在使用前慎重考虑,确保合法合规使用并遵守第三方的要求。