searchusermenu
  • 发布文章
  • 消息中心
l****n
5 文章|0 获赞|0 粉丝|162 浏览
社区专栏视频问答关注
全部文章Ta的评论
  • NeRF的基本思想是用神经网络作为一个3D场景的隐式表达,代替传统的点云、网格、体素、TSDF等方式,同时通过这样的网络可以直接渲染任意角度任意位置的投影图像
    l****n
    2023-05-25
    8
    0
  • MA-LMM能够处理和理解长时间的视频内容,如电影和电视节目。通过长期记忆库来存储和累积过去的视频信息,用于后续的视频序列处理。采用在线处理方式,显著减少了处理长视频所需的GPU内存占用。结合视觉编码器和大型语言模型,能够处理图像和视频,并生成文本描述。
    l****n
    2024-07-17
    24
    0
  • 大规模视觉语言模型 Qwen-VL,具备图文识别、描述、问答及对话能力,主要特点包括 ● 强大的性能:在多个评估基准(包括零样本图像描述、视觉问答、文档视觉问答和定位)上,它明显优于现有的开源大型视觉-语言模型(LVLMs)。 ● 多语言支持:Qwen-VL自然地支持英文、中文和多语言交流,并促进了对中英双语文本和图像实例的端到端识别和定位。 ● 多图像交织对话:这个特性允许输入和比较多个图像,以及指定与图像相关的问题,并进行多图像叙述。 ● 精细化的识别和理解:相对于其他开源LVLM目前使用的224×224分辨率,448×448分辨率可以促进对细节的OCR文本识别、文档问答和边界框检测。
    l****n
    2024-05-27
    63
    0
  • 一个SLAM系统可以分为前端和后端,其中前端称为视觉里程计,其作用是根据相邻图像的信息估计出粗略的相机运动,给后端提供较好的初始值。视觉里程计的算法主要有两大类:特征点法(主流方法)和直接法
    l****n
    2023-06-27
    18
    0
  • 介绍直播中常见的算法及其应用场景
    l****n
    2023-05-12
    49
    0
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 5 篇文章
文章获得 0 次赞同
文章被浏览 162 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉