尚书七号使用方法(技巧) 在工作中常需要识别文字,感觉尚书七号效果不错的
虽然使用方法很简单,但是工作量较大的时候,注意一点技巧,工作效率还是会提高的,我自己走了不少弯路,写出来和大家分享
个人表达能力有限,偏差之处,还望海涵
基本使用方法: 1、打开尚书七号,选择打开图象
(我用的版本可以识别的格式有bmp、tif、jpg) 2、选择开始识别或按 F8
识别结果将显示在窗口上部,下部显示版面分析结果
其中红线为可识别部分,绿线为不可识别
3、选择输出--到指定格式文件,将识别结果保存为需要的格式
识别前应注意的问题: 1、图片质量
批量识别时,首先应确保要识别的图片质量
如不能识别还需要重新处理,甚至会导致软件死掉,浪费时间
我本人就曾深受其苦
图片分辨率应稍高,肉眼看感觉偏大,因为识别工具是有点近视的,文字和底色对比要求不高,通常来说,肉眼能看清楚即可,底色发灰或发黑基本不会影响识别结果
2、避免有不规则形状(图片)出现
识别工具在进行版面分析时,只能采用方形切割,当图片中存在文字环绕不规则形状时,则无法将文字和该形状划分开,则将出现错误或无法识别
此时,较快的办法是在PS中,吸取该图片附近的页面底色,用粗画笔将该区域涂上,不必讲求效果,颜色没有太大差别即可,重新保存图片
3、避免图象倾斜
尚书七号中也有自动倾斜校正和手动倾斜校正工具,但即使经过校正,识别率还是低很多
如果是拍摄的书本,可能会产生一定弧度,此时保证行的两端对齐即可
另外在拍摄时应避免高光等会使图象各部分亮度反差大的情况
书本转换(扫描、拍摄)技巧 1、可以将书摊平,一次将两边都扫描或拍摄下来,节省时间
处理图片时不必剪开,这时要用到尚书七号的分栏工具了
直接用鼠标在打开的图象上拖拽,可出现选框,分成左右两个分栏,分栏左上角的编号就是识别结果的排列顺序
它会将自动按照编号顺序将所有分栏的内容连