全部文章Ta的评论
- 以前的 FAS 方法受到数据集的规模大小和多样性的限制。作者观察到,使用二元分类模型在此类数据集上进行训练容易过度拟合。此外,网络在这类数据集中训练容易过拟合,这使得模型学习到的特征在未知的测试场景中很容易受到攻击。因此,近期的 FAS 方法利用辅助像素级监督信息 (如,binary mask 和 pseudo depth map)作为强大的先验知识,以在未知的测试场景下拥有更好的鲁棒性。然而基于整图输入的 FAS 模型缺乏捕获局部细粒度内在信息的能力,因此作者将 FAS 重新定义为细粒度的局部 patch 识别问题。z****n2024-05-24840
- 原始的CLIP模型基于英文图文语料,不能用于中文的图文表征提取场景。Chinese-CLIP以英文CLIP视觉侧参数和中文Roberta参数,作为模型初始化值。 基于大规模原生中文图文数据,实现了CLIP模型的中文化版本,从而满足对中文版本的需求。论文提出了中文CLIP的两阶段的预训练方法,建立了 5 个不同大小的模型,参数量从 77M 到 958M 。z****n2024-05-24510
- 现有的VLP模型的text embedding基本上都使用类BERT结构,但是visual embedding存在着差异。在大多数情况下,visual embedding是现有VLP模型的瓶颈。visual embedding的方法总共有三大类,其中region feature方法通常采用Faster R-CNN二阶段检测器提取region的特征,grid feature方法直接使用CNN提取grid的特征,patch projection方法将输入图片切片投影提取特征。ViLT是首个使用patch projection来做visual embedding的方法。z****n2023-05-151990
- 深度压缩可以在不影响准确率的情况下压缩神经网络。论文的方法通过修剪不重要的连接,使用权重共享量化网络,然后应用霍夫曼编码来操作。论文重点介绍了在 AlexNet 上的实验,该实验将权重存储减少了 35 倍而不会损失准确性。论文对 VGG-16 和 LeNet 网络显示了类似的结果,压缩了 49 倍和 39 倍,而不会损失准确性。这导致将卷积网络放入移动应用程序的存储需求更小。在深度压缩之后,这些网络的大小适合片上 SRAM 缓存,而不需要片外 DRAM 内存。这可能使深度神经网络在移动设备上运行时更加节能。论文的压缩方法还有助于在应用程序大小和下载带宽受到限制的移动应用程序中使用复杂的神经网络。z****n2023-05-10150
共 4 条
- 1
页
没有更多了
个人简介
暂未填写公司和职务
暂未填写个人简介
暂未填写技能专长
暂未填写毕业院校和专业
个人成就
共发表过 4 篇文章
文章获得 0 次赞同
文章被浏览 349 次
获得 0 人关注
个人荣誉查看规则
暂未获得荣誉