OCR
Optical Character Recognition,光学字符识别,一种通过扫描后将文本转换为可编辑数字文本的技术。通过使用图像处理和机器学习等技术,OCR可以将印刷文本转换为计算机可读的数字文本,从而实现对文本的数字化处理和自动化识别。
字符集
Character set,用于表示所有可识别字符的特定字符集合。每个字符集包含的字符个数不同,有些字符集只包含基本的字母和数字,而有些则包含大量的符号和特殊字符。
分段
Segmentation,图像预处理的一个步骤,将文本块从整个图像中分离出来。
二值化
Binarization,将文本图像转换为只包含黑色和白色像素的图像。这种处理方法的优点是能够简化图像处理过程,提高处理效率。
预处理
Preprocessing,识别前对文本图像进行处理的过程,包括去除噪声、增强对比度等。
切割
Snapping,将图像中的字符切割成单独的字符,方便后续的字符识别和处理。
识别率
Recognition rate,OCR系统正确识别字符的比率。识别率的计算公式为:(正确识别的字符数 / 总字符数) × 100%。识别率越高,说明OCR系统的性能越好,识别效果越准确。在实际应用中,识别率是评价OCR系统性能的重要标准之一,也是用户选择OCR系统的重要依据之一。
矩形化
Rectification,对文本图像进行矫正,使字符出现在一个水平或垂直的矩形内。通过矩形化处理,文本图像中的字符可以被统一到一个标准的排列方式,有助于提高OCR系统的识别准确率和处理速度。同时,矩形化处理还可以消除由于拍摄角度、纸张弯曲等因素导致的字符倾斜、扭曲等问题,使得后续的字符识别更加准确和可靠。
特征提取
Feature extraction,指从原始图像中提取出一些具有代表性的特征,这些特征可以用于描述图像的内容和结构。在文本图像识别中,特征提取是关键步骤之一,它可以帮助机器更好地理解和识别文本信息。
文本框检测
Text frame detection,在图像中识别和定位文本框的位置和大小的过程,可以帮助确定需要识别的文本区域,使OCR只检测感兴趣区域,从而减少OCR系统的计算量和误差。
字符识别
Character recognition,使用OCR技术将扫描的文本图像转换为数字文本的过程。
逐字识别
Character by character recognition,OCR系统按照文本图像中字符的顺序,逐个字符进行识别的过程。在逐字识别中,OCR系统通常会处理单个字符的图像,因此可以更加细致地处理每个字符的细节和特征。它可以提高字符识别的准确率和可靠性,并且方便进行校对和修正。
神经网络
Neural network,一种模拟人脑神经元结构的计算模型,由多个神经元组成,通过训练和学习进行模式识别和预测等任务,常用于OCR中的字符识别。
语言模型
Language Model,对于自然语言处理(NLP)任务,如OCR,区分不同单词的语法和上下文规则的统计模型。
改写
Rewriting,通过重新排列和连接字符来识别单个字符的技术,可以有效地识别出单个字符,并且在遇到不同的字符和字体时具有良好的适应性。
同形异义
Homophone,在OCR中,指具有相同发音但含义不同的单词。
最小编辑距离(Minimum edit distance):在OCR中,用于计算已知单词和OCR结果之间的差异。
形态学处理
Morphological processing,一种基于数学形态学的图像处理方法,用于分析和处理图像中的形状和结构。在OCR图像处理中,形态学处理可以采用腐蚀、膨胀等方式去除噪声和细节,从而提高OCR识别的准确性和可靠性。
腐蚀操作可以将图像中的每个像素与其周围的像素进行比较,如果周围的像素值比当前像素值小,则将当前像素值降低。腐蚀操作可以用来消除小的噪声点和突出的细节,使图像更加平滑。膨胀操作是将图像中的每个像素与其周围的像素进行比较,如果周围的像素值比当前像素值大,则将当前像素值提高。膨胀操作可以用来扩大图像中的亮区域,使得一些小的连通区域合并成一个大的连通区域。
字符序列
Character sequence,在OCR中,将多个字符组合在一起,以建立单词和句子的概念。