全部文章Ta的评论
- 本文介绍将多模态学习与视频文本检索相结合的SOTA模型,Table(TAgging Before aLignmEnt),通过引入多模态信息和在标签域融合信息,有效提升本文视频检索的召回率。l****n2024-05-21380
- Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。l****n2024-04-17681
- SCRFD人脸检测(Sample and Computation Redistribution for Efficient Face Detection)通过训练数据采样和计算分布策略,旨在提高人脸检测的效率,主要目标是低延迟、低成本和高准确度。本文对SCRFD-10g模型进行了优化和全面评测,包括在WIDER FACE的Easy/Medium/Hard条件下的准确率评估,不同尺寸人脸框的检测精度,口罩遮挡下的人脸检测,不同光照和分辨率条件下的表现,关键点检测精度,不同得分阈值对准确度的影响,以及低质量图片下的人脸检测效果。全面分析SCRFD-10g模型,评估其部署和应用潜力。l****n2023-12-112561
共 3 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 3 篇文章
文章获得 2 次赞同
文章被浏览 362 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉