基于模板匹配的印刷号码识别研究贾军锋(西安西正印制有限公司)摘要:随着技术的进步,对号码进行在线识别检测已经成为票据印刷中减少缺陷号码,提高产品质量的必然趋势。本文研究了基于模板匹配的印刷号码自动识别系统,实现了对号码图像的自动识别。关键词:模板匹配;号码识别1引言模板匹配是字符图像识别最重要的一种方法。为了实现模板匹配,首先要得到识别字符的标准模板,模板匹配识别的过程是把待识别字符图像和标准模板进行比较的过程。本文对金融票据号码进行分析研究,用采集来的号码图像制作标准字体模板,然后通过模板匹配对字符图像进行图1-1识别过程识别,得到识别结果。整个识别过程如图1-1所示。2预处理图像的预处理就是用一系列的特定操作来改变图像的像素以达到特定目的的。一般来说,它应该包含图像的噪声去除、图像边缘锐化和二值化。2.1噪声去除图像预处理的目的在于去除孤立的噪声点,使图像画面清晰,以便提取字符特征进行识别。噪声去除是很必要的图像预处理步骤。常见的噪声去除方法有均值滤波法、高斯滤波法、中值滤波法等。由于号码字符主要由笔画线条组成,采用均值滤波或高斯滤波会造成字符边缘模糊,所以本文采用中值滤波法对图像进行去噪处理,滤波效果如图2-1所示。2.2图像边缘锐化锐化的主要目的在于突出图像中的细节或者增强被模糊了的细节,比如号码图像中号码边缘就是必需要增强的特征信息。本(a)原图(b)中值滤波图2-1滤波效果文采用拉普拉斯算子作为图像边缘增强的滤波器,选用3×3模板,各个像素点的权值如图2-2所示,处理效果如图2-3所示。2.3图像的二值化图像的二值化是通过图像的阈值分割来实现的。由于阈值分割能将灰度图像转换为二值图像,不仅可以大量压缩数据减少存储量,而且能简化其后的分析和处理步骤。根据阈值选取方法的不同,二值化方法主要分为三类:全局阈值法、局部阈值法和动态阈值法。由于在印刷号码在线检测识别系统中,光源稳定,待识别号码图像区域可以事先采集,所以可以在系统的设计中采用全局阈值法,预先指定一个阈值,通过调整数值观察图像的变化效果,从而选取合适的阈值。图2-4给出了经过二值化后的图像处理效果。(a)原始图像(b)二值图像图2-4图像二值化图2-2拉普拉斯锐化算子图2-3拉普拉斯边缘增强|0−10−14−10−10|3号码的定位与分割3.1号码的定位对于票据号码图像,在经过二值化后,单个号码间距较大,噪声干扰较小,因此可以选用比较简单的能够快速定位字符的方法,比较简单的是垂直投影法。将字符在垂直方向投影,由于各字符之间存在明显的间距,就可以通过一条竖线从左向右扫描投影图,通过判断扫描过程中遇见的号码黑色像素和背景白色像素决定字符的起始位置和结束位置。3.1.1字符图像的左右边界定位二值图像的坐标如图3-1所示。设号码图像宽为w,高为h,二值化后的图像为g(i,j),则字符左右边界定位的具体步骤如下:对图像g(i,j)延x方向从上至下读取每一个像素点的灰度级进行如下判断:a)如果所读取的y向上的灰度级都是白点f(i,j)=1,即背景色,则认为该列位于两个字符之间;图3-1号码字符定位坐标b)若在某一y向上读到了黑点f(i,j)=0,即信息色,则这一列存在字符信息;c)对于一个字符的左右边界是这样确定的:当第一次在y向上读到信息色,则将这一列的i值记录为该字符的左边界;在此之后,当第一次在y向上读到的都是背景色,则将这一列的i值记录为该字符的右边界。这样将整个图像区域扫描完成之后,将记录下每个字符的左右边界。因为号码图像均由连续的线条构成,所以采用垂直投影法对0-9这十个字符图像进行分割没有问题,图3-2是一个号码图像字符定位示意图,图3-2(a)是从在线检测设备上截取的号码图像。图3-2(b)是定位后的号码图像,为8个阿拉伯数字。图3-2(c)是图3-2(b)像素数目垂直投影分布图,可见字符间有明显的间隔,利于单字符定位。3.1.2字符图像的上下边界定位字符上下边界定位的具体步骤如下:对图像g(i,j)延y方向从左至右读取每一个像素点的灰度级进行如下判断:a)如果所读取的x向上的灰度级都是白点f(i,j)=1,即背景色,则该行位于字符之上或下;b)若在某一y向上读到了黑点f(i,j)=0,即...