更新时间:2023-01-31 GMT+08:00
分享

框选识别区

在文字识别过程中,需要确定图片中识别的文字位置,这就需要在图片模板中框选识别区。

识别区指图片中待识别的文字位置。所有需要识别的图片中都会包含此识别区的字段,且位置固定不变,因此模型可以通过识别区找到需要识别内容的位置。

前提条件

已在文字识别套件控制台选择“多模板分类工作流”新建应用,并框选参照字段,详情请见框选参照字段

操作步骤

图1 多模板框选识别区
  1. “应用开发>框选参照字段”页面上方或者“选择模板”下拉框中选择模板,对每个模板图片进行预处理。
  2. 单击左上方操作图标,调整当前模板图片到合适大小。
  3. 单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区,使得矩形框覆盖待识别的文字。

    框选识别区应尽量扩大识别区范围,使所框选识别区覆盖字段值可能出现的区域。

  4. 在右侧“框选识别区”中填写“框选字段”,选择“字段类型”

    “字段类型”指待识别文字的内容,您可以在默认字段类型中选择,当前可选择的默认字段类型包括“姓名”“数字”“常规”“电话号码”“地址”“金额”“长数字”“长字段”,每个识别区可选择多个字段类型。

    如果“默认字段类型”不能满足您的业务需求,您可以在字段类型下拉框单击“创建新字段类型”创建新字段类型

  5. 框选并核对完所有模板图片的识别区后,单击“下一步”,进入训练分类器步骤。

创建新字段类型

如果鼠标框选识别区后,在“框选识别区”选择字段类型时,“默认字段类型”不能满足您的业务需求,您可以创建新的字段类型。

  1. “应用开发>框选识别区”页面单击框选操作图标,单击待识别文字的左上角,移动鼠标框选识别区。
  2. 在右侧“框选识别区”中的“字段类型”下拉框中,单击“创建新字段类型”

    弹出“创建字段类型”对话框。

  3. 填写字段类型信息。
    图2 创建字段类型

    “字段类型名称”:填写待创建的字段类型名称,如识别身份证照片,可新增字段类型“出生日期”

    “字段属性”:选择字段属性,可选择“自定义正则提取”“自定义字典”,然后按表1填写相关信息。

    表1 字段属性参数说明

    字段属性

    参数

    参数说明

    举例

    自定义字典

    取值范围

    在识别当前字段类型的文字时,选择字典的取值范围中最相似的取值为最后识别结果。

    例如:

    “字段类型名称”“城市”

    “字段属性”“自定义字典”

    “取值范围”“Shenzhen”“Beijing”“Xi'an”

    在识别“字段类型”“城市”的文字时,从“Shenzhen”“Beijing”“Xi'an”中找出与待识别文字最相似的取值,作为识别结果。

    自定义正则提取

    预过滤

    对初始的待识别文字进行预处理。

    左边输入框填写待识别文字中被替换字符的正则表达式。

    右边输入框填写所替换的新字符。

    不填写时,默认不做预处理。

    如果需要多次预处理,可单击,填写新增的预处理规则。

    例如:

    “字段类型名称”“出生日期”

    “字段属性”“自定义正则提取”

    “预过滤”“”/“”

    “提取”“\d+年\d+月\d+日”

    “后处理”“年”/“.”“月”/“.”

    “日”/“”

    在识别字段类型为出生日期的文字“2020年1月1日出生”时,首先不做预过滤,然后提取关键字符“2020年1月1日”,最后做后处理,最终提取内容为“2020.1.1”

    提取

    对经过“预处理”的文字进行关键字符提取。

    在输入框中填写查找关键字符的正则表达式。

    不填写时,默认提取全部字段。

    如果需要多个提取规则,单击新增提取规则。提取时按从上到下优先级规则提取,选择第一个非空的提取内容作为提取后的内容。

    后处理

    根据实际情况,对经过“提取”后的文字进行“后处理”

相关文档