SRN算法介绍
(2)视觉纹理(PVAM)和语义信息(GSRM)利用视觉语义融合解码器(VSFD)混合,得到统一特征
以ResNet50 + FPN为主干网络,输出第三、第四、第五层特征图作为特征金字塔作为特征输出。在此基础上,还叠加了两个transformer单元来捕获特征信息的空间依赖。
Ot为字符阅读顺序,代表了位置信息,函数fo代表了位置信息的编码函数,vij则是视觉特征信息,we、wv、wo则为相应的可学习权重,融合阅读顺序与视觉特征之后,通过softmax来计算相互间的注意力权重a。
最后通过权重与视觉特征的累加,得到t时刻(或者说第t个字符)的特征gt。整体计算流程中不需要t-1或t+1时刻信息,因此PVAM可以并行的进行矩阵运算,输出所有时间步长的视觉特征。
核心思想就是e’(下图Embed步骤得到,无时刻t的前序时刻t-1影响)来近似代替e(有时间影响)。
特征融合时,利用了门控思想,先利用视觉特征g和语义特征s来得到门控阈值z,然后融合二者信息得到f,进行最终的线性变换,得到字典概率。