框选识别区

在文字识别过程中，需要确定图片中识别的文字位置，这就需要在图片模板中框选识别区。

识别区指图片中待识别的文字位置。所有需要识别的图片中都会包含此识别区的字段，且位置固定不变，因此模型可以通过识别区找到需要识别内容的位置。

前提条件

已在文字识别套件控制台选择“多模板分类工作流”新建应用，并框选参照字段，详情请见框选参照字段。

操作步骤

图1 多模板框选识别区
点击放大

在“应用开发>框选参照字段”页面上方或者“选择模板”下拉框中选择模板，对每个模板图片进行预处理。
单击左上方操作图标，调整当前模板图片到合适大小。
单击框选操作图标，单击待识别文字的左上角，移动鼠标框选识别区，使得矩形框覆盖待识别的文字。
框选识别区应尽量扩大识别区范围，使所框选识别区覆盖字段值可能出现的区域。
在右侧“框选识别区”中填写“框选字段”，选择“字段类型”。
“字段类型”指待识别文字的内容，您可以在默认字段类型中选择，当前可选择的默认字段类型包括“姓名”、“数字”、“常规”、“电话号码”、“地址”、“金额”、“长数字”、“长字段”，每个识别区可选择多个字段类型。

如果“默认字段类型”不能满足您的业务需求，您可以在字段类型下拉框单击“创建新字段类型”，创建新字段类型。
框选并核对完所有模板图片的识别区后，单击“下一步”，进入训练分类器步骤。

创建新字段类型

如果鼠标框选识别区后，在“框选识别区”选择字段类型时，“默认字段类型”不能满足您的业务需求，您可以创建新的字段类型。

在“应用开发>框选识别区”页面单击框选操作图标，单击待识别文字的左上角，移动鼠标框选识别区。
在右侧“框选识别区”中的“字段类型”下拉框中，单击“创建新字段类型”。
弹出“创建字段类型”对话框。

填写字段类型信息。

图2 创建字段类型

“字段类型名称”：填写待创建的字段类型名称，如识别身份证照片，可新增字段类型“出生日期”。

“字段属性”：选择字段属性，可选择“自定义正则提取”和“自定义字典”，然后按表1填写相关信息。

表1 字段属性参数说明
字段属性	参数	参数说明	举例
自定义字典	取值范围	在识别当前字段类型的文字时，选择字典的取值范围中最相似的取值为最后识别结果。	例如： “字段类型名称”：“城市” “字段属性”：“自定义字典” “取值范围”：“Shenzhen”、“Beijing”、“Xi'an” 在识别“字段类型”为“城市”的文字时，从“Shenzhen”、“Beijing”、“Xi'an”中找出与待识别文字最相似的取值，作为识别结果。
自定义正则提取	预过滤	对初始的待识别文字进行预处理。左边输入框填写待识别文字中被替换字符的正则表达式。右边输入框填写所替换的新字符。不填写时，默认不做预处理。如果需要多次预处理，可单击，填写新增的预处理规则。	例如： “字段类型名称”：“出生日期” “字段属性”：“自定义正则提取” “预过滤”：“”/“” “提取”：“\d+年\d+月\d+日” “后处理”：“年”/“.”、“月”/“.”、 “日”/“” 在识别字段类型为出生日期的文字“2020年1月1日出生”时，首先不做预过滤，然后提取关键字符“2020年1月1日”，最后做后处理，最终提取内容为“2020.1.1”。
	提取	对经过“预处理”的文字进行关键字符提取。在输入框中填写查找关键字符的正则表达式。不填写时，默认提取全部字段。如果需要多个提取规则，单击新增提取规则。提取时按从上到下优先级规则提取，选择第一个非空的提取内容作为提取后的内容。
	后处理	根据实际情况，对经过“提取”后的文字进行“后处理”。