介绍常用的弯曲文本数据集
弯曲文本检测是文本检测任务中的一个重要方向,常用的公开评测数据集包括以下几类:
表1 常用弯曲本文数据集
数据集 |
train |
test |
场景 |
语言 |
方向 |
scut-ctw1500 |
1000 |
500 |
室内+室外 |
中英文 |
多方向+弯曲 |
total-text |
1255 |
300 |
室内+室外 |
中文 |
多方向+弯曲 |
ICDAR2019-ArT |
5127 |
476 |
室内+室外 |
中文 |
多方向+弯曲 |
1. scut-ctw1500
该数据集由华南理工大学金连文团队提出,包含了1500张图像,10751个文本框标注,其中每张图像至少包含一个弯曲的文本。数据来源于互联网收集,图像包含了谷歌Open-image和手机摄像头数据。文本方向包含水平文本,倾斜文本、任意形状文本。在分布上多种多样,包括室内外场景,有模糊,透视,畸变等现象。数据集为多语言,包含了中文和英文数据。其数据示例如下所示:
图1 scut-ctw1500
2 total-text
total-text数据集是由马来西亚大学陈志胜团队在2017年提出,包含1555张图像,其中1255张用训练,300张用于测试。数据集图像来自于真实场景,包含了室内室外多种场景。文本方向分布上包含大量的常规文本,同时每张图像都至少由一个弯曲文本。在标注上采用的是基于单词级别的多边形标注以及像素级别的标注。数据集语言仅包含了英文文本。其数据示例图如下所示:
图2 total-text
3 icdar2019-ArT
ICDAR 2019-ArT 数据集由 Total-Text、SCUT-CTW 1500和百度非规则文字数据集组成,总计10176张,是目前业内最大的任意形状场景文字数据集。每张图像至少包含了一个弯曲文本,在标注上采用多点标注。语言上包含中文和英文。其数据示例如下图所示:
图3 icdar2019-art
同时,它是2019年icdar赛事中art任务的数据集,目前在该数据集上,处于精度前列的方法如下表所示:
表2 icdar2019-art数据集排名
range |
date |
method |
recall |
precision |
hmean |
1 |
2023-02-23 |
AntFin-Cascade Mask R-CNN |
83.36% |
87.08% |
85.18% |
2 |
2021-07-05 |
I3CL |
81.03% |
87.26% |
84.03% |
3 |
2020-05-21 |
DuXiaoman_OCR |
79.35% |
87.81% |
83.36% |
4 |
2019-12-17 |
Tencent TEG OCR |
81.16% |
85.64% |
83.34% |
5 |
2019-11-04 |
Sogou_OCR |
78.49% |
87.94% |
82.95% |