searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

SRN场景文字识别模型

2024-12-12 09:11:02
6
0

SRN算法介绍

1. 核心思想

1)挖掘语义信息(GSRM),来辅助文本识别

2)视觉纹理PVAM)和语义信息(GSRM)利用视觉语义融合解码器(VSFD)混合,得到统一特征

2. 详细过程

1)SRN模型整体流程图如下:

1. 主干网络:

ResNet50 + FPN为主干网络,输出第三、第四、第五层特征图作为特征金字塔作为特征输出。在此基础上,还叠加了两个transformer单元来捕获特征信息的空间依赖。

1. 并行视觉注意力模块(PVAM):

 

Ot为字符阅读顺序,代表了位置信息,函数fo代表了位置信息的编码函数,vij则是视觉特征信息,wewvwo则为相应的可学习权重,融合阅读顺序与视觉特征之后,通过softmax来计算相互间的注意力权重a。

最后通过权重与视觉特征的累加,得到t时刻(或者说第t个字符)的特征gt。整体计算流程中不需要t-1或t+1时刻信息,因此PVAM可以并行的进行矩阵运算,输出所有时间步长的视觉特征。

1. 全局语义推理模块(GSRM):

核心思想就是e(下图Embed步骤得到,无时刻t的前序时刻t-1影响)来近似代替e(有时间影响)。

然后利用e来计算st,进行语义推理。

1. 视觉语义融合解码器(VSFD):

特征融合时,利用了门控思想,先利用视觉特征g和语义特征s来得到门控阈值z,然后融合二者信息得到f,进行最终的线性变换,得到字典概率。

 

3. 应用场景

应用于场景文字识别,与文字检测配合使用。

1. 评估

 

 

0条评论
0 / 1000
钱****翔
6文章数
0粉丝数
钱****翔
6 文章 | 0 粉丝
原创

SRN场景文字识别模型

2024-12-12 09:11:02
6
0

SRN算法介绍

1. 核心思想

1)挖掘语义信息(GSRM),来辅助文本识别

2)视觉纹理PVAM)和语义信息(GSRM)利用视觉语义融合解码器(VSFD)混合,得到统一特征

2. 详细过程

1)SRN模型整体流程图如下:

1. 主干网络:

ResNet50 + FPN为主干网络,输出第三、第四、第五层特征图作为特征金字塔作为特征输出。在此基础上,还叠加了两个transformer单元来捕获特征信息的空间依赖。

1. 并行视觉注意力模块(PVAM):

 

Ot为字符阅读顺序,代表了位置信息,函数fo代表了位置信息的编码函数,vij则是视觉特征信息,wewvwo则为相应的可学习权重,融合阅读顺序与视觉特征之后,通过softmax来计算相互间的注意力权重a。

最后通过权重与视觉特征的累加,得到t时刻(或者说第t个字符)的特征gt。整体计算流程中不需要t-1或t+1时刻信息,因此PVAM可以并行的进行矩阵运算,输出所有时间步长的视觉特征。

1. 全局语义推理模块(GSRM):

核心思想就是e(下图Embed步骤得到,无时刻t的前序时刻t-1影响)来近似代替e(有时间影响)。

然后利用e来计算st,进行语义推理。

1. 视觉语义融合解码器(VSFD):

特征融合时,利用了门控思想,先利用视觉特征g和语义特征s来得到门控阈值z,然后融合二者信息得到f,进行最终的线性变换,得到字典概率。

 

3. 应用场景

应用于场景文字识别,与文字检测配合使用。

1. 评估

 

 

文章来自个人专栏
计算机视觉
6 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0