2.下载好了解压注意配置环境变量
我们可以用画图工具绘制样本文件,数量越多越好我自己画了5张图,如图:
【注意】:样本图像文件格式必须为tif\tiff格式否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。
5.生成Box File文件打开命令行,执行命令:
注:Make Box File 文件名有一定的格式不能随便乱取名字,命令格式为:
其中lang为语訁名称fontname为字体名称,num为序号可以随便定义。
6.文字校正运行jTessBoxEditor工具,打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录)如下圖所示。可以看出有些字符识别的不正确可以通过该工具手动对每张图片中识别错误的字符进行校正。校正完成后保存即可
在目标文件夾内生成一个名为font_properties的文本文件(无后缀)内容为
fontname为字体名称,italic为斜体bold为黑体字,fixed为默认字体serif为衬线字体,fraktur德文黑字体1和0代表有和無,精细区分时可使用
在目标目录下生成一个批处理文件
将批处理通过命令行执行。执行后的结果如下:
需确认打印结果中的Offset 1、3、4、5、13這些项不是-1这样,一个新的语言文件就生成了
9.使用训练后的语言库识别
用训练后的语言库识别number.jpg文件, 打开命令行定位到tesseract ocr 训练-OCR目录,輸入命令: