智能信息处理第3章文字识别技术3
3张宝健•3
1文字识别系统•3
2脱机文字识别•3
3联机文字识别第3章文字识别技术3
1文字识别系统主要介绍模式识别中的文字识别的原理对分类器的具体实现做了详细剖析列举常见的文字识别方法对于文字识别的前景与挑战的分析第3章文字识别技术3
3•文字是人类相互交流信息的重要工具
•社会发展进入信息时代,人们已经不再停留在自己的耳朵和眼睛去直接获得这些信息,而是使用计算机将文字自动的输入计算机,用计算机对他们进行处理,随时以各种方式满足人们的不同需要
因此,研究如何用计算机自动识别文字图像,解决文字自动输入计算机,并进行高速加工处理的问题已引起大家的关注
•通俗的说,文字识别就是由计算机自动识别各种字符,如字母、数字、汉字或其他语言中的字符
文字识别有如下分类:•根据识别对象的不同,文字识别可分为西文识别、数字识别和汉字识别等
•这些字符可以是手写体和印刷体,因此文字识别又可分为手写体文字识别和印刷体文字识别
•根据采用的输入设备不同,文字识别可分为联机识别和脱机识别
•其中联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别,因此联机识别主要是针对手写体而言的;脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信号输入到计算机中,再由机器进行识别
因此,脱机识别又称为光学文字识别,即我们通常所说的OCR(OpticalCharacterRecognition)
•限制性(Constrainted)和非限制性(Unconstrained)手写体字符识别(或称自由手写体字符识别)
•无论是联机还是脱机手写体字符识别,都经历了一个由限制性识别到非限制性识别的过程
目前,人类所使用的各种文字,绝大多数都只包含很小的字符集
如英文字符集由26个字母组成,俄文由