通过神经网络的最短路径来分割粘连的字符VIP免费

下载本文档

阅读 156
下载 4
格式 pdf
大小 387.56 KB
约13页
2024-11-11 发布于河南
收藏
评论
点赞(0)
海报
举报

1/13页

2/13页

3/13页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/13

文本预览下载提示常见问题

]辩散髅《{、1一2~1I通过神经网络和最短路径来分割粘连的字符JinWang和JackJean一寸弋LL摘要I＼【以神经网络为基础识别打印字符的方法，其主要问题是，如何分割有粘连的字符。在此，本文提出一种混合处理方法，即以神经网络为基础的延迟分割方案与传统的快速分割技术相结合的方法。在延迟分割过程中，利用神经网络把单个字符和复合字符IX分开来。为了寻找可以分割一个复合字符合适的垂直切口，使用一种寻找损失最小的弯曲切口的最短路径算法。把这些模块与一个多分辨力的神经网络OCR和一个有效的拼音检测装置组合起来，构成的系统可明显地提高阅读奎字体文本的能力。一、引言神经网络技术的最新进展，已引起人们把这一技术应用于传统的OCR上的浓厚兴趣，而在手写体数字识别“和多字体或全字体字符识别”方面，人们曾报导过对孤立字符识别的许多具有美好发展前景的结果。例如，由LeCun等人开发的用于识别ZIP邮政编码的现代化网络，显示出其良好的识别能力和对租不规则的数据图形进行分类的优良性能，这些图形只有在远距离看来与正常的手写体数字“极为相似。由于存在大量的静电复印、桌面刊印和电传真迹图象传送文本，所以，很有必要开发高性能全字体的OCR系统，适应文件图象处理与办公室自动化的需要。在参考文献中，将一个以神经网络为基础的多分辨力OCR识别装置与参考文献采用多层网络识别手写体ZIP邮码”结构相结合，使孤立全字体字符的识别率达到99．9％。为了处理实际的文件，一个突出的问题是分割有粘连的字符，当一个单词中的相邻字符互相接触时，就会发生这种字符粘连的情况分割粘连字符是个老大难问题。对文本文件来说，字符的相互接触、粘连在一起是由于字体风格、字体大小、复印等原因，或是由于扫描器有限的分辨力造成的，或是为了避免字符失真使用高的二值化闽值所致。Casey和Nagy最初提出的解决粘连字符的传统方法“是以分类为基础进行分割“。这些方案中，存在的粘连字符先由OCR拒识，然后再进行切割，以便于对图象进行分解，并通过对分解成分的重新分类来完成分割。上述迅即分割技术如图1(a)所示，两个相互接触oo字符的方框被OCR拒识，通过左右两部分的重新分类，对方框进行分解。对以传统特征为基础的OCR识别装置来讲，通常可以拒识不适当匹配的图象，井将它们假设为粘连字符。这是因为可以根据诸如环、扫描长度数、曲率或笔道的倾斜度等各种句法特征的存在与否作出拒识判决。然而，对以神经网络为基础的OCR识别装置，如参考文献””‘采用多层网络识别手写体ZIP邮码”的那种OCR，它与传统的OCR相比，情况有所不同。在各个图象空间“遥远地区所用的一个神经网络分类器，由于所提供的训练字样不足而表现出较差的性能。虽然参考文献”’的神经网络能识别属于图象空间“遥远”地区的不规则数据，但就其性能来说，该网络可能存在拒识粘连字符的问题，特别在识别与单个字符形状类似的粘连字符时，尤为如此。例如，该网络未经过对大量相互接触的粘连字符进行训练时，不可能把⋯W与“ur”或⋯m与“rn”区分开来。实验表明，当用实际文件测试时，一个神经网络为基础的OCR识别装置，对孤立字符的识别率可达到99．9，但它缺乏拒识粘连字符的能力。——71—维普资讯http://www.cqvip.com因此，有关孤立字符神经网络的高识别性能，只有解决粘连字符的分类问题后，才会自动地提高文本的识别率。除单个字符外，采用大量相互接触的字符对训练网络会遇到一些问题。若设置一个含有62种类别10，000单个字符的数据库，就能容易地按10，000单个字符排序以生成训练对。这不仅延长了网络训练时间，而且降低了打印文件的单个字符的识别率。虽然可以通过增加接收阈值来拒识粘连字符，但是这一方法可能会产生两个问题。首先，增加粘连字符分割的比率，使带有噪声和畸变的字符更有可能会被拒识。这样使系统放慢了处理速度．由于增加拒识率从而降低了系统的识别率。其次，某些字符如“u”经拒识和误分割后．有可能变成“l1”，从而降低了识别的准确性。因为在一般打印质量的文件中，只是偶然地出现粘连字符，且并非全部作为单诃误分类，所以可用象往常一样的识别过程进行处理，不过，稍后在单...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

通过神经网络的最短路径来分割粘连的字符

]辩散髅《{、1一2~1I通过神经网络和最短路径来分割粘连的字符JinWang和JackJean一寸弋LL摘要I＼【以神经网络为基础识别打印字符的方法，其主要问题是，如何分割有粘连的字符

在此，本文提出一种混合处理方法，即以神经网络为基础的延迟分割方案与传统的快速分割技术相结合的方法

在延迟分割过程中，利用神经网络把单个字符和复合字符IX分开来

为了寻找可以分割一个复合字符合适的垂直切口，使用一种寻找损失最小的弯曲切口的最短路径算法

把这些模块与一个多分辨力的神经网络OCR和一个有效的拼音检测装置组合起来，构成的系统可明显地提高阅读奎字体文本的能力

一、引言神经网络技术的最新进展，已引起人们把这一技术应用于传统的OCR上的浓厚兴趣，而在手写体数字识别“和多字体或全字体字符识别”方面，人们曾报导过对孤立字符识别的许多具有美好发展前景的结果

例如，由LeCun等人开发的用于识别ZIP邮政编码的现代化网络，显示出其良好的识别能力和对租不规则的数据图形进行分类的优良性能，这些图形只有在远距离看来与正常的手写体数字“极为相似

由于存在大量的静电复印、桌面刊印和电传真迹图象传送文本，所以，很有必要开发高性能全字体的OCR系统，适应文件图象处理与办公室自动化的需要

在参考文献中，将一个以神经网络为基础的多分辨力OCR识别装置与参考文献采用多层网络识别手写体ZIP邮码”结构相结合，使孤立全字体字符的识别率达到99．9％

为了处理实际的文件，一个突出的问题是分割有粘连的字符，当一个单词中的相邻字符互相接触时，就会发生这种字符粘连的情况分割粘连字符是个老大难问题

对文本文件来说，字符的相互接触、粘连在一起是由于字体风格、字体大小、复印等原因，或是由于扫描器有限的分辨力造成的，或是为了避免字符失真使用高的二值化闽值所致

Casey和Nagy最初提出的解决粘连字符的传统方法“是以分类为基础进行分割

起跑线书城 + 关注: 实名认证
内容提供者

热爱教学事业，对互联网知识分享很感兴趣

收藏店铺进入空间

通过神经网络的最短路径来分割粘连的字符VIP免费

通过神经网络的最短路径来分割粘连的字符

您可能关注的文档

相关文档

热门下载

相关标签