]辩散髅《{、1一2~1I通过神经网络和最短路径来分割粘连的字符JinWang和JackJean一寸弋LL摘要I\【以神经网络为基础识别打印字符的方法,其主要问题是,如何分割有粘连的字符
在此,本文提出一种混合处理方法,即以神经网络为基础的延迟分割方案与传统的快速分割技术相结合的方法
在延迟分割过程中,利用神经网络把单个字符和复合字符IX分开来
为了寻找可以分割一个复合字符合适的垂直切口,使用一种寻找损失最小的弯曲切口的最短路径算法
把这些模块与一个多分辨力的神经网络OCR和一个有效的拼音检测装置组合起来,构成的系统可明显地提高阅读奎字体文本的能力
一、引言神经网络技术的最新进展,已引起人们把这一技术应用于传统的OCR上的浓厚兴趣,而在手写体数字识别“和多字体或全字体字符识别”方面,人们曾报导过对孤立字符识别的许多具有美好发展前景的结果
例如,由LeCun等人开发的用于识别ZIP邮政编码的现代化网络,显示出其良好的识别能力和对租不规则的数据图形进行分类的优良性能,这些图形只有在远距离看来与正常的手写体数字“极为相似
由于存在大量的静电复印、桌面刊印和电传真迹图象传送文本,所以,很有必要开发高性能全字体的OCR系统,适应文件图象处理与办公室自动化的需要
在参考文献中,将一个以神经网络为基础的多分辨力OCR识别装置与参考文献采用多层网络识别手写体ZIP邮码”结构相结合,使孤立全字体字符的识别率达到99.9%
为了处理实际的文件,一个突出的问题是分割有粘连的字符,当一个单词中的相邻字符互相接触时,就会发生这种字符粘连的情况分割粘连字符是个老大难问题
对文本文件来说,字符的相互接触、粘连在一起是由于字体风格、字体大小、复印等原因,或是由于扫描器有限的分辨力造成的,或是为了避免字符失真使用高的二值化闽值所致
Casey和Nagy最初提出的解决粘连字符的传统方法“是以分类为基础进行分割