光学字符识别(Optical Character Recognition,OCR)技术,是指利用如扫描仪或数码相机等电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。[1]
该技术的概念由德国科学家古斯塔夫·陶谢克(Gustav Tauschek)于1929年最先提出,[5]紧接着美国科学家亨德尔(Handel)提出利用光电转换方式对文字进行识别的想法。20世纪六七十年代,世界各国研究者开始研究光学字符识别技术,初期研究主要集中于数字0至9的识别。到了20世纪70年代,中国逐渐开展对于光学字符识别的研究,同时期日本的学者也开始汉字识别的研究。[10]光学字符识别在工业界的应用也十分广泛。在21世纪初期,杨立昆(Yann LeCun)将基于卷积神经网络的手写体数字识别系统应用于银行支票的数额识别 ,这个系统在2000年左右已经处理了美国全部支票数量的10%~20%。[11] 传统OCR识别系统的作业流程分为图像输入、预处理、文字识别、版面还原、后处理及校对等多个步骤。[12]光学字符识别方法包括图像二值化、[6]连通域分析、[13]特征提取与神经网络结合法等,[7]涉及模块匹配算法、EAST等算法。[7][14]其识别指标有拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等,[8][9]广泛应用在文档处理及信息检索、港口作业、内部审计等领域。[2][3][4] 历史沿革
萌芽阶段