使用jTessBoxEditorFX训练Tesseract-OCR教程步骤一:使用画图软件生成要训练的
tif文件,本例做了34个
tif文件,如下:步骤二:使用jTessBoxEditorFX将所有
tif文件合并成一个
tif文件,如图:并在该目录下可以看见合并后你所命名的tif文件
如图:步骤三:打开cmd窗口,将目录切换到安装的tesseract目录下,输入以下命令,生成box文件,如图:tesseractZG
exp0-psm7-lchi_simbatch
nochopmakebox注:l是L的小写
并在该目录下会生成ZG
box文件,如图:步骤四:使用jTessBoxEditorFX工具选择BoxEditor-Open,打开tif文件(此时同名的tif、box文件必须同处一个目录下,我都给他放在tesseract安装目录下了),如下图:查看所有文件并校正错误的文件,如图:双击红色箭头处,将其修改为台,并单击character后的后,单击save
校正完毕后,在该目录下新建一个TXT文件将其文件名改为font_properties,并将其文件扩展名
如图所示:打开font_properties文件,并在其中输入[fontname]00000,如下图所示
注:[fontname]:即是ZG
exp0中的SFJC步骤五:使用修正后的box文件来训练,在cmd中运行一下语句:tesseractZG
exp0-psm7nobatchbox
train后会在该目录下生成一个ZG
如图:步骤六:提取字符,运行如下命令:unicharset_extractorZG
box后会在该目录下生成一个名为unic