全部文章Ta的评论
- MA-LMM能够处理和理解长时间的视频内容,如电影和电视节目。通过长期记忆库来存储和累积过去的视频信息,用于后续的视频序列处理。采用在线处理方式,显著减少了处理长视频所需的GPU内存占用。结合视觉编码器和大型语言模型,能够处理图像和视频,并生成文本描述。l****n2024-07-17230
- 大规模视觉语言模型 Qwen-VL,具备图文识别、描述、问答及对话能力,主要特点包括 ● 强大的性能:在多个评估基准(包括零样本图像描述、视觉问答、文档视觉问答和定位)上,它明显优于现有的开源大型视觉-语言模型(LVLMs)。 ● 多语言支持:Qwen-VL自然地支持英文、中文和多语言交流,并促进了对中英双语文本和图像实例的端到端识别和定位。 ● 多图像交织对话:这个特性允许输入和比较多个图像,以及指定与图像相关的问题,并进行多图像叙述。 ● 精细化的识别和理解:相对于其他开源LVLM目前使用的224×224分辨率,448×448分辨率可以促进对细节的OCR文本识别、文档问答和边界框检测。l****n2024-05-27570
- 一个SLAM系统可以分为前端和后端,其中前端称为视觉里程计,其作用是根据相邻图像的信息估计出粗略的相机运动,给后端提供较好的初始值。视觉里程计的算法主要有两大类:特征点法(主流方法)和直接法l****n2023-06-27180
- l****n2023-05-12470
共 5 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 5 篇文章
文章获得 0 次赞同
文章被浏览 153 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉