印刷体汉字识别系统一、文字识别概述汉字是历史悠久的中华民族文化的重要结晶,闪烁着中国人民智慧的光芒
汉字数量众多,仅清朝编纂的《康熙字典》就包含了 49,000多个汉字,其数量之大,构思之精,为世界文明史所仅有
由于汉字为非字母化、非拼音化的文字,所以在信息技术及计算机技术日益普及的今天,如何将汉字方便、快速地输入到计算机中已成为关系到计算机技术能否在我国真正普及的关键问题
图 1文字识别的分类将汉字输入到计算机里一般有两种方法:人工键入和自动输入
其中人工键入速度慢而且劳动强度大,一般的使用者每分钟只能输入 40~50个汉字
这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合
而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战
自动输入又分为汉字识别输入及语音识别输入
由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题
汉字识别技术可以分为印刷体识别及手写体识别技术
而手写体识别又可以分为联机(on-line)与脱机(off-line)两种
这种划分方法可以用图 1来表示
从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别
到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段
联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的
在书写时,笔在板上的运动轨迹(在板上的坐标)被转化为一系列的电信号,电信号可以串行地进入到计算机中
从这些电信号我们可以比较容易地抽取笔划和笔顺的信息
从 90年代以来,联机手写体的识别正逐步走向实用,方兴未艾
中国大陆及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开始进入这一市场
这一技术也迎合了 PDA(PersonalDigitalAssista